ÉlőUtoljára: 1 órájaMa: 18
Kutatásfrissítve: 12:10

RL-alapú finomhangolás jobban őrzi meg az AI-modellek képességeit, mint a SFT

A RL-alapú finomhangolás 200-szor kevésbé bontja meg az AI-modellek belső áramköreit, mint a hagyományos SFT-módszer, miközben lassabban alkalmazkodik az új feladathoz.

RL-alapú finomhangolás jobban őrzi meg az AI-modellek képességeit, mint a SFT
Fotó: Fotó: Alexandre Debiève / Unsplash
forrás: ArXiv ML·AI Forradalom szerk.·
Megosztás

Az AI-modellek finomhangolása gyakran korábbi képességeik elfelejtéséhez vezet, ám az új kutatások szerint a reinforcement learning (RL) módszere jobban megőrzi ezeket a tudásokat, mint a supervised finomhangolás (SFT). A jelenséget korábban azzal magyarázták, hogy a RL-frissítések közelebb maradnak az alapmodellhez. Most egy új kutatás a mechanizmusok szintjére terjeszti ki ezt az elméletet, és azt vizsgálja, hogy a RL vajon az AI belső számítási áramköreit is jobban megőrzi-e.

A kutatók bevezették a „differenciális áramkör-sérülékenység” (differential circuit vulnerability) fogalmát, amely egy fej-szintű mérőszám arra, hogy egy adott áramkör mennyire degradálódik a finomhangolás során. Ezt a Qwen2.5-3B-Instruct modellt tudományos kérdés-válaszolásra adaptálva vetették össze a RL és SFT módszerekkel. Az eredmények egyértelmű mechanisztikai kompromisszumot mutattak: a SFT gyorsabban alkalmazkodik az új feladathoz, de jelentősen nagyobb áramköri zavart és felejtést okoz. Ezzel szemben a RL lassabban tanul, de az alapáramkörök nagyobb hányadát őrzi meg.

Kapcsolódó: GFT módszer

Ezek az eredmények arra utalnak, hogy az áramkörök megőrzése magyarázhatja, miért ellenállóbb a RL a katasztrofális felejtéssel szemben. A kutatók közzétették a kódot a GitHubon, amely lehetővé teszi a differenciális áramkör-sérülékenység mérését.

Kapcsolódó: APMPO rendszer

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom