Frissítve: 2 órája·Ma: 4
Kutatás
AI által generált szöveg

Új SAT módszerrel hangolhatók össze a kisebb LLM-ek — koordinátor nélkül

A Sequential Agent Tuning (SAT) eljárás blokk-koordinált frissítéseket alkalmaz az ügynökökön, így központi vezérlő nélkül is skálázható és decentralizált betanítást tesz lehetővé.

Új SAT módszerrel hangolhatók össze a kisebb LLM-ek — koordinátor nélkül
Fotó: CDC / Unsplash
Forrás: ArXiv MLSzerző: AI Forradalom szerk.
Megosztás

Kisebb, hatékonyabb nagy nyelvi modellek (LLM-ek) csapatainak összehangolására dolgoztak ki egy új, koordinátor nélküli betanítási módszert, a Sequential Agent Tuningot (SAT) — írja az ArXiv-en megjelent tanulmány. A kutatók szerint ez a megközelítés megoldást kínál a nagyméretű, drága modellek telepítési költségeire, miközben a kisebb modellek kollektíven felérhetnek, sőt felülmúlhatnak egyetlen nagy modellt.

A több ügynök együttes frissítése eddig komoly kihívást jelentett a képzési stabilitás és a koordináció szempontjából a halmozott eloszlásbeli eltolódások miatt. A SAT ezt a problémát úgy kezeli, hogy a csapatot faktorizált irányelvként reprezentálja, és ügynökönkénti KL megbízhatósági régiókat alkalmaz, amelyek elkülönítik a foglalkozási sodródást.

A szinkronizáció művészete

A SAT keretrendszer két kritikus elméleti garanciát is nyújt. Egyrészt biztosítja a monoton javulást a csapat teljesítményében, ami azt jelenti, hogy minden egyes betanítási lépéssel garantáltan jobb eredményeket érnek el. Másrészt lehetővé teszi a plug-and-play integrációt, így az új ügynökök könnyen beilleszthetők a meglévő csapatba anélkül, hogy az egész rendszert újra kellene konfigurálni.

Üzemi szinten

A kutatás egy szekvencia-tudatos, on-policy előnybecslőt is fejlesztett, amely a fejlődő csapatirányelvre kondicionál. Ez a technika kulcsfontosságú a decentralizált és skálázható betanítás megvalósításához, amely nem igényel központi koordinátort. A módszerrel a kisebb LLM-ek hatékonyan működhetnek együtt, csökkentve a számítási és telepítési költségeket, például a Google 2024-es LLM fejlesztési projektjében.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom