GEM új adatkeverési módszerrel 1,1B paraméteres modellek teljesítményét javítja
A LLM-ek előtanulásának hatékonyságát egyre inkább az adatösszetétel, nem a mennyiség határozza meg, és a GEM ezt a problémát célozza meg.

A LLM-ek előtanulásának hatékonysága egyre inkább az adatösszetételtől függ, nem csak a mennyiségtől — írja a tanulmány.
Az adatkeverési módszer átalakulása
A hagyományos emberi taxonómiák ontológiai eltéréseket mutatnak, míg az Euclidean klaszterezés nem képes kezelni az embedding anisotópiát, ami torz adatcsoportosításhoz vezet.
A GEM áttörése
A GEM a keverést variációs problémaként modellezi a hiperszférán, kiegyensúlyozott keverési regulátorral, így a generatív prior elkülönül a célfüggvénytől.
A MM (Minorize‑Maximize) algoritmus segítségével a GEM megakadályozza a klaszter összeomlását, és felfedezi a kiegyensúlyozott szemantikai struktúrákat, amelyeket az európai heuristikák nem látnak.
Tanár‑diák distillációval a módszer web‑szintű korpusokra is skálázható, a bevezetett Geometric Influence Score (GIS) pedig értelmezhető taxonómiákat generál.
A 1,1B‑paraméteres modellek kísérletei szerint a GEM állítólag új állapotot ér el a teljesítményben – a szerzők szerint ez a megközelítés jelentős javulást hoz a benchmarkokon.
A tanulmány 2026. májusában került feltöltésre az arXiv-re, és a Stanford AI Lab kutatói a GEM-et a következő hónapokban tovább finomítják a Stanford AI Labban, 2026. júniusban tervezett szemináriumon.