Frissítve: 16 perce·Ma: 57
Kutatás
AI által generált szöveg

Új GFT módszer oldhatja meg a LLM-ek betanítási problémáit

A Group finomhangolás (GFT) a hagyományos betanítási módszerek, mint a SFT és a RL, korlátait célozza, hogy robusztusabb és általánosíthatóbb LLM-eket hozzon létre.

Új GFT módszer oldhatja meg a LLM-ek betanítási problémáit
Fotó: Possessed Photography / Unsplash
Forrás: ArXiv AISzerző: AI Forradalom szerk.
Megosztás

Új betanítási keretrendszert mutatott be az ArXiv AI, amely Group finomhangolás (GFT) néven egyesíti a felügyelt finomhangolást (SFT) és a megerősítéses tanulást (RL) a nagyméretű nyelvi modellek (LLM) hatékonyabb tudásinjektálása és robusztusabb általánosítása érdekében — írja a kutatás.

A jelenlegi LLM-ek poszt-betanítása során a SFT és a RL módszerekkel gyakran kihívást jelent a hatékony tudásátadás és a megbízható általánosítás egyesítése. A kutatók szerint a SFT értelmezhető úgy, mint egy speciális eset, ahol rendkívül ritka implicit jutalmazás és instabil inverz-valószínűségi súlyozás vezet egyedi útvonalfüggőséghez, entrópia-összeomláshoz és gradiensrobbanáshoz.

A GFT keretrendszer két fő mechanizmussal orvosolja ezeket a problémákat. Az egyik a Group Advantage Learning, amely különböző válaszcsoportokat hoz létre, és normalizált kontrasztív felügyeletet alkalmaz a jutalomritkaság enyhítésére. A másik a Dynamic Coefficient Rectification, amely adaptívan korlátozza az inverz-valószínűségi súlyokat az optimalizálás stabilizálása érdekében.

A GFT célja, hogy a modellek ne csak utánozzák, hanem rugalmasan alkalmazkodjanak a sokféle felhasználói preferenciához, miközben megőrzik robusztusságukat és átláthatóságukat. A kutatás az ArXiv AI felületén, a 2604.14258v1 azonosító alatt érhető el.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom