Az OptiMer 15-35-ször kevesebb számítási kapacitást igényel, mint a hagyományos adatkeverés
Az OptiMer a Gemma 3 27B modellen végzett kísérletek során egyaránt felülmúlta a hagyományos adatkeverést és a modellátlagolást japán, kínai nyelveken és matematika, kódolás területeken.

Az OptiMer a Gemma 3 27B modellen végzett kísérletek során 15–35-szor kevesebb számítási kapacitást igényelt, mint a hagyományos adatkeverés. A módszer egyetlen CPT modellt tanít minden adatforráshoz, majd a modell eloszlásvektorait kombinálja Bayes-optimalizálással.
Miért fontos? A hagyományos adatkeverés arányát a tréning kezdetén kell rögzíteni, és a rossz beállítás több hét számítási időt pazarolhat. Az OptiMer ezt a problémát oldja meg, mert a ratio kiválasztás a tréning után történik.
Technikai részlet: Az OptiMer a kísérletek során a japán, kínai nyelveken és a matematika, kódolás területeken is felülmúlta a hagyományos adatkeverést és a modellátlagolást. A módszer a distribution vector-eket használja, amelyek a adathalmaz által kiváltott paramétereltolódást képviselik.
Az eredmények azt mutatják, hogy a megtalált súlyok értelmezhetők adatkeverési arányként, és ezekkel újra betanítva a CPT modell még jobb teljesítményt nyújt. Az OptiMer ugyanazt a vektortömböt újraoptimalizálhatja egy adott célra, anélkül, hogy újra kellene tanítani.
Mi a következő lépés? A kutatók azt tervezik, hogy a módszert szélesebb körben, több nyelven és doménben tesztelik, hogy megerősítsék az általánosíthatóságot.