RL-alapú finomhangolás jobban őrzi meg az AI-modellek képességeit, mint a SFT
A RL-alapú finomhangolás 200-szor kevésbé bontja meg az AI-modellek belső áramköreit, mint a hagyományos SFT-módszer, miközben lassabban alkalmazkodik az új feladathoz.

Az AI-modellek finomhangolása gyakran korábbi képességeik elfelejtéséhez vezet, ám az új kutatások szerint a reinforcement learning (RL) módszere jobban megőrzi ezeket a tudásokat, mint a supervised finomhangolás (SFT). A jelenséget korábban azzal magyarázták, hogy a RL-frissítések közelebb maradnak az alapmodellhez. Most egy új kutatás a mechanizmusok szintjére terjeszti ki ezt az elméletet, és azt vizsgálja, hogy a RL vajon az AI belső számítási áramköreit is jobban megőrzi-e.
A kutatók bevezették a „differenciális áramkör-sérülékenység” (differential circuit vulnerability) fogalmát, amely egy fej-szintű mérőszám arra, hogy egy adott áramkör mennyire degradálódik a finomhangolás során. Ezt a Qwen2.5-3B-Instruct modellt tudományos kérdés-válaszolásra adaptálva vetették össze a RL és SFT módszerekkel. Az eredmények egyértelmű mechanisztikai kompromisszumot mutattak: a SFT gyorsabban alkalmazkodik az új feladathoz, de jelentősen nagyobb áramköri zavart és felejtést okoz. Ezzel szemben a RL lassabban tanul, de az alapáramkörök nagyobb hányadát őrzi meg.
Kapcsolódó: GFT módszer
Ezek az eredmények arra utalnak, hogy az áramkörök megőrzése magyarázhatja, miért ellenállóbb a RL a katasztrofális felejtéssel szemben. A kutatók közzétették a kódot a GitHubon, amely lehetővé teszi a differenciális áramkör-sérülékenység mérését.
Kapcsolódó: APMPO rendszer