ÉlőUtoljára: 1 órájaMa: 18
Kutatásfrissítve: 08:50

GEM új adatkeverési módszerrel 1,1B paraméteres modellek teljesítményét javítja

A LLM-ek előtanulásának hatékonyságát egyre inkább az adatösszetétel, nem a mennyiség határozza meg, és a GEM ezt a problémát célozza meg.

GEM új adatkeverési módszerrel 1,1B paraméteres modellek teljesítményét javítja
Fotó: Fotó: Ousa Chea / Unsplash
forrás: ArXiv ML·AI Forradalom szerk.·
Megosztás

A LLM-ek előtanulásának hatékonysága egyre inkább az adatösszetételtől függ, nem csak a mennyiségtől — írja a tanulmány.

Az adatkeverési módszer átalakulása

A hagyományos emberi taxonómiák ontológiai eltéréseket mutatnak, míg az Euclidean klaszterezés nem képes kezelni az embedding anisotópiát, ami torz adatcsoportosításhoz vezet.

A GEM áttörése

A GEM a keverést variációs problémaként modellezi a hiperszférán, kiegyensúlyozott keverési regulátorral, így a generatív prior elkülönül a célfüggvénytől.

A MM (Minorize‑Maximize) algoritmus segítségével a GEM megakadályozza a klaszter összeomlását, és felfedezi a kiegyensúlyozott szemantikai struktúrákat, amelyeket az európai heuristikák nem látnak.

Tanár‑diák distillációval a módszer web‑szintű korpusokra is skálázható, a bevezetett Geometric Influence Score (GIS) pedig értelmezhető taxonómiákat generál.

A 1,1B‑paraméteres modellek kísérletei szerint a GEM állítólag új állapotot ér el a teljesítményben – a szerzők szerint ez a megközelítés jelentős javulást hoz a benchmarkokon.

A tanulmány 2026. májusában került feltöltésre az arXiv-re, és a Stanford AI Lab kutatói a GEM-et a következő hónapokban tovább finomítják a Stanford AI Labban, 2026. júniusban tervezett szemináriumon.

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom