Új GFT módszer oldhatja meg a LLM-ek betanítási problémáit
A Group finomhangolás (GFT) a hagyományos betanítási módszerek, mint a SFT és a RL, korlátait célozza, hogy robusztusabb és általánosíthatóbb LLM-eket hozzon létre.

Új betanítási keretrendszert mutatott be az ArXiv AI, amely Group finomhangolás (GFT) néven egyesíti a felügyelt finomhangolást (SFT) és a megerősítéses tanulást (RL) a nagyméretű nyelvi modellek (LLM) hatékonyabb tudásinjektálása és robusztusabb általánosítása érdekében — írja a kutatás.
A jelenlegi LLM-ek poszt-betanítása során a SFT és a RL módszerekkel gyakran kihívást jelent a hatékony tudásátadás és a megbízható általánosítás egyesítése. A kutatók szerint a SFT értelmezhető úgy, mint egy speciális eset, ahol rendkívül ritka implicit jutalmazás és instabil inverz-valószínűségi súlyozás vezet egyedi útvonalfüggőséghez, entrópia-összeomláshoz és gradiensrobbanáshoz.
A GFT keretrendszer két fő mechanizmussal orvosolja ezeket a problémákat. Az egyik a Group Advantage Learning, amely különböző válaszcsoportokat hoz létre, és normalizált kontrasztív felügyeletet alkalmaz a jutalomritkaság enyhítésére. A másik a Dynamic Coefficient Rectification, amely adaptívan korlátozza az inverz-valószínűségi súlyokat az optimalizálás stabilizálása érdekében.
A GFT célja, hogy a modellek ne csak utánozzák, hanem rugalmasan alkalmazkodjanak a sokféle felhasználói preferenciához, miközben megőrzik robusztusságukat és átláthatóságukat. A kutatás az ArXiv AI felületén, a 2604.14258v1 azonosító alatt érhető el.