Új SAT módszerrel hangolhatók össze a kisebb LLM-ek — koordinátor nélkül
A Sequential Agent Tuning (SAT) eljárás blokk-koordinált frissítéseket alkalmaz az ügynökökön, így központi vezérlő nélkül is skálázható és decentralizált betanítást tesz lehetővé.

Kisebb, hatékonyabb nagy nyelvi modellek (LLM-ek) csapatainak összehangolására dolgoztak ki egy új, koordinátor nélküli betanítási módszert, a Sequential Agent Tuningot (SAT) — írja az ArXiv-en megjelent tanulmány. A kutatók szerint ez a megközelítés megoldást kínál a nagyméretű, drága modellek telepítési költségeire, miközben a kisebb modellek kollektíven felérhetnek, sőt felülmúlhatnak egyetlen nagy modellt.
A több ügynök együttes frissítése eddig komoly kihívást jelentett a képzési stabilitás és a koordináció szempontjából a halmozott eloszlásbeli eltolódások miatt. A SAT ezt a problémát úgy kezeli, hogy a csapatot faktorizált irányelvként reprezentálja, és ügynökönkénti KL megbízhatósági régiókat alkalmaz, amelyek elkülönítik a foglalkozási sodródást.
A szinkronizáció művészete
A SAT keretrendszer két kritikus elméleti garanciát is nyújt. Egyrészt biztosítja a monoton javulást a csapat teljesítményében, ami azt jelenti, hogy minden egyes betanítási lépéssel garantáltan jobb eredményeket érnek el. Másrészt lehetővé teszi a plug-and-play integrációt, így az új ügynökök könnyen beilleszthetők a meglévő csapatba anélkül, hogy az egész rendszert újra kellene konfigurálni.
Üzemi szinten
A kutatás egy szekvencia-tudatos, on-policy előnybecslőt is fejlesztett, amely a fejlődő csapatirányelvre kondicionál. Ez a technika kulcsfontosságú a decentralizált és skálázható betanítás megvalósításához, amely nem igényel központi koordinátort. A módszerrel a kisebb LLM-ek hatékonyan működhetnek együtt, csökkentve a számítási és telepítési költségeket, például a Google 2024-es LLM fejlesztési projektjében.