Frissítve: 5 perce·Ma: 66
Kutatás
AI által generált szöveg

Az OptiMer 15-35-ször kevesebb számítási kapacitást igényel, mint a hagyományos adatkeverés

Az OptiMer a Gemma 3 27B modellen végzett kísérletek során egyaránt felülmúlta a hagyományos adatkeverést és a modellátlagolást japán, kínai nyelveken és matematika, kódolás területeken.

Az OptiMer 15-35-ször kevesebb számítási kapacitást igényel, mint a hagyományos adatkeverés
Fotó: CDC / Unsplash
Forrás: ArXiv NLPSzerző: AI Forradalom szerk.
Megosztás

Az OptiMer a Gemma 3 27B modellen végzett kísérletek során 15–35-szor kevesebb számítási kapacitást igényelt, mint a hagyományos adatkeverés. A módszer egyetlen CPT modellt tanít minden adatforráshoz, majd a modell eloszlásvektorait kombinálja Bayes-optimalizálással.

Miért fontos? A hagyományos adatkeverés arányát a tréning kezdetén kell rögzíteni, és a rossz beállítás több hét számítási időt pazarolhat. Az OptiMer ezt a problémát oldja meg, mert a ratio kiválasztás a tréning után történik.

Technikai részlet: Az OptiMer a kísérletek során a japán, kínai nyelveken és a matematika, kódolás területeken is felülmúlta a hagyományos adatkeverést és a modellátlagolást. A módszer a distribution vector-eket használja, amelyek a adathalmaz által kiváltott paramétereltolódást képviselik.

Az eredmények azt mutatják, hogy a megtalált súlyok értelmezhetők adatkeverési arányként, és ezekkel újra betanítva a CPT modell még jobb teljesítményt nyújt. Az OptiMer ugyanazt a vektortömböt újraoptimalizálhatja egy adott célra, anélkül, hogy újra kellene tanítani.

Mi a következő lépés? A kutatók azt tervezik, hogy a módszert szélesebb körben, több nyelven és doménben tesztelik, hogy megerősítsék az általánosíthatóságot.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom