Kutatás2026. máj. 30.frissítve: 14:10

RL-alapú finomhangolás jobban őrzi meg az AI-modellek képességeit, mint a SFT

A RL-alapú finomhangolás 200-szor kevésbé bontja meg az AI-modellek belső áramköreit, mint a hagyományos SFT-módszer, miközben lassabban alkalmazkodik az új feladathoz.

Fotó: Alexandre Debiève / Unsplash

forrás: ArXiv ML·AI Forradalom szerk.·2026. május 30.

Megosztás

Az AI-modellek finomhangolása gyakran korábbi képességeik elfelejtéséhez vezet, ám az új kutatások szerint a reinforcement learning (RL) módszere jobban megőrzi ezeket a tudásokat, mint a supervised finomhangolás (SFT). A jelenséget korábban azzal magyarázták, hogy a RL-frissítések közelebb maradnak az alapmodellhez. Most egy új kutatás a mechanizmusok szintjére terjeszti ki ezt az elméletet, és azt vizsgálja, hogy a RL vajon az AI belső számítási áramköreit is jobban megőrzi-e.

A kutatók bevezették a „differenciális áramkör-sérülékenység” (differential circuit vulnerability) fogalmát, amely egy fej-szintű mérőszám arra, hogy egy adott áramkör mennyire degradálódik a finomhangolás során. Ezt a Qwen2.5-3B-Instruct modellt tudományos kérdés-válaszolásra adaptálva vetették össze a RL és SFT módszerekkel. Az eredmények egyértelmű mechanisztikai kompromisszumot mutattak: a SFT gyorsabban alkalmazkodik az új feladathoz, de jelentősen nagyobb áramköri zavart és felejtést okoz. Ezzel szemben a RL lassabban tanul, de az alapáramkörök nagyobb hányadát őrzi meg.

Kapcsolódó: GFT módszer

Ezek az eredmények arra utalnak, hogy az áramkörök megőrzése magyarázhatja, miért ellenállóbb a RL a katasztrofális felejtéssel szemben. A kutatók közzétették a kódot a GitHubon, amely lehetővé teszi a differenciális áramkör-sérülékenység mérését.

Kapcsolódó: APMPO rendszer

tetszett a cikk? oszd meg →

Megosztás