Kutatás2026. ápr. 2.frissítve: 06:26

Az OptiMer 15-35-ször kevesebb számítási kapacitást igényel, mint a hagyományos adatkeverés

Az OptiMer a Gemma 3 27B modellen végzett kísérletek során egyaránt felülmúlta a hagyományos adatkeverést és a modellátlagolást japán, kínai nyelveken és matematika, kódolás területeken.

Fotó: Fotó: CDC / Unsplash

forrás: ArXiv NLP·AI Forradalom szerk.·2026. április 2.

Megosztás

Az OptiMer a Gemma 3 27B modellen végzett kísérletek során 15–35-szor kevesebb számítási kapacitást igényelt, mint a hagyományos adatkeverés. A módszer egyetlen CPT modellt tanít minden adatforráshoz, majd a modell eloszlásvektorait kombinálja Bayes-optimalizálással.

Miért fontos? A hagyományos adatkeverés arányát a tréning kezdetén kell rögzíteni, és a rossz beállítás több hét számítási időt pazarolhat. Az OptiMer ezt a problémát oldja meg, mert a ratio kiválasztás a tréning után történik.

Technikai részlet: Az OptiMer a kísérletek során a japán, kínai nyelveken és a matematika, kódolás területeken is felülmúlta a hagyományos adatkeverést és a modellátlagolást. A módszer a distribution vector-eket használja, amelyek a adathalmaz által kiváltott paramétereltolódást képviselik.

Az eredmények azt mutatják, hogy a megtalált súlyok értelmezhetők adatkeverési arányként, és ezekkel újra betanítva a CPT modell még jobb teljesítményt nyújt. Az OptiMer ugyanazt a vektortömböt újraoptimalizálhatja egy adott célra, anélkül, hogy újra kellene tanítani.

Mi a következő lépés? A kutatók azt tervezik, hogy a módszert szélesebb körben, több nyelven és doménben tesztelik, hogy megerősítsék az általánosíthatóságot.

tetszett a cikk? oszd meg →

Megosztás