Új offline desztillációs módszer javítja a kisebb LLM-ek érvelését
A kutatók egy olyan eljárást dolgoztak ki, amely a tanítómodell által generált adatok hatékonyságát ötvözi a tanulómodell valós idejű viselkedésével.

Kisebb nyelvi modellek (LLM) érvelési képességét javítja egy új offline adatokon alapuló desztillációs módszer, amely a betanítás során fellépő disztribúciós eltolódást korrigálja — írja az ArXiv-en megjelent tanulmány.
A desztilláció lényege, hogy egy erősebb, nagyobb modell (tanítómodell) tudását átadják egy kisebbnek (tanulómodell), így erőforrás-korlátozott környezetben is jobb teljesítmény érhető el. A meglévő offline megközelítések azonban kompromisszummal járnak: bár a tanítómodell által generált adatok kiváló minőségűek és mintavételezés szempontjából hatékonyak, a tanulómodell betanítás közben a tanítómodell előtagjaira kondicionál, míg következtetéskor saját maga által generált előtagokra támaszkodik. Ez az úgynevezett disztribúciós eltolódás összetett hibákhoz vezethet a hosszú érvelési folyamatok során.
A tanulás fonalán
Az on-policy vagy öndisztillációs módszerek jobban illeszkednek a tanulómodell következtetési idejű disztribúciójához, de drága online mintavételezést igényelnek, és a korai betanítási fázisokban gyakran alacsony minőségű nyomokat produkálnak. Az új, elosztás-korrigált offline érvelési desztillációs rendszer célja, hogy megőrizze az offline, tanítómodell által generált adatok hatékonyságát és felügyeleti minőségét, miközben korrigálja a tanító-tanuló eltolódást.
A megoldás szövevényében
A Lightning OPD nevű keretrendszer például teljesen kiküszöböli az élő tanító szerver szükségességét, és tanítómodell-konzisztenciát biztosít. A kutatók szerint ez a megközelítés kulcsfontosságú lehet a klinikai hálózatokban, vállalati tudásbázisokban és tudományos konzorciumokban használt, sávszélesség-korlátozott csomópontokon elosztott nyelvi modellek betanításánál, mint például az ArXiv 2024. március 15-én megjelent tanulmányában olvasható.