Kutatás2026. ápr. 17.frissítve: 06:10

Új GFT módszer oldhatja meg a LLM-ek betanítási problémáit

A Group finomhangolás (GFT) a hagyományos betanítási módszerek, mint a SFT és a RL, korlátait célozza, hogy robusztusabb és általánosíthatóbb LLM-eket hozzon létre.

Fotó: Fotó: Possessed Photography / Unsplash

forrás: ArXiv AI·AI Forradalom szerk.·2026. április 17.

Megosztás

Új betanítási keretrendszert mutatott be az ArXiv AI, amely Group finomhangolás (GFT) néven egyesíti a felügyelt finomhangolást (SFT) és a megerősítéses tanulást (RL) a nagyméretű nyelvi modellek (LLM) hatékonyabb tudásinjektálása és robusztusabb általánosítása érdekében — írja a kutatás.

A jelenlegi LLM-ek poszt-betanítása során a SFT és a RL módszerekkel gyakran kihívást jelent a hatékony tudásátadás és a megbízható általánosítás egyesítése. A kutatók szerint a SFT értelmezhető úgy, mint egy speciális eset, ahol rendkívül ritka implicit jutalmazás és instabil inverz-valószínűségi súlyozás vezet egyedi útvonalfüggőséghez, entrópia-összeomláshoz és gradiensrobbanáshoz.

A GFT keretrendszer két fő mechanizmussal orvosolja ezeket a problémákat. Az egyik a Group Advantage Learning, amely különböző válaszcsoportokat hoz létre, és normalizált kontrasztív felügyeletet alkalmaz a jutalomritkaság enyhítésére. A másik a Dynamic Coefficient Rectification, amely adaptívan korlátozza az inverz-valószínűségi súlyokat az optimalizálás stabilizálása érdekében.

A GFT célja, hogy a modellek ne csak utánozzák, hanem rugalmasan alkalmazkodjanak a sokféle felhasználói preferenciához, miközben megőrzik robusztusságukat és átláthatóságukat. A kutatás az ArXiv AI felületén, a 2604.14258v1 azonosító alatt érhető el.

tetszett a cikk? oszd meg →

Megosztás