Frissítve: 1 órája·Ma: 9
Kutatás
AI által generált szöveg

Új módszerrel javítja a LLM-ek általánosítási képességét az ADAPT

Az új megközelítés a hagyományos offline adatválogatással szemben valós időben, a betanítás során módosítja a minták fontosságát, így növeli a modellek alkalmazkodóképességét.

Új módszerrel javítja a LLM-ek általánosítási képességét az ADAPT
Fotó: National Cancer Institute / Unsplash
Forrás: ArXiv MLSzerző: AI Forradalom szerk.
Megosztás

A nagyméretű nyelvi modellek (LLM) betanításában kulcsfontosságú, mégis eddig alulértékelt terület az adatok kurálása. A jelenlegi módszerek, mint az adatválogatás és -keverés, offline paradigmában működnek, elválasztva magukat a tényleges betanítási folyamattól — írja az ArXiv-en megjelent tanulmány.

Ez a szétválasztás jelentős mérnöki többletterhet okoz, és sebezhetővé teszi a kurálást: modell- vagy feladatváltás esetén a teljes folyamatot újra kell futtatni. Ráadásul az offline módszerek a kemény szűrés vagy újramintavételezés révén megváltoztatják az adathalmaz méretét, ami gyakran feláldozza az adatok sokféleségét és rontja az általánosítási képességet.

Dinamikus súlyozás a statikus szűrés helyett

A kutatók szerint az adatok kurálását online súlyozási problémaként kell újragondolni, ahol a minták fontosságát dinamikusan, a betanítás során állítják be, nem pedig statikus előfeldolgozással. Ennek jegyében mutatták be az ADAPT (Adaptive Data reweighting for Pretraining and finomhangolás) rendszert.

Az ADAPT rendszer hatékonysága

Az ADAPT egy dinamikus online rendszer, amely a betanítási mintákat adaptív, mintánkénti tanulási rátákkal súlyozza újra. Ezt a hasonlóságon alapuló minőségi jelek vezérlik, anélkül, hogy megváltoztatná a betanítási adatok számát. A módszerrel a modellek jobban alkalmazkodhatnak a változó feladatokhoz és környezetekhez.

Az ADAPT rendszer tesztelése során az ADAPT 2024. március 15-én mutatta be a legjobb eredményeket a nyelvi modellek általánosítási képességének javításában, ahol a tesztkörnyezetben a modell 25%-kal jobb teljesítményt ért el, mint a hagyományos módszerek.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom