ÉlőUtoljára: 1 órájaMa: 18
Kutatásfrissítve: 08:50

Akár 2,5-szeresére csökkenti a LLM-ek betanítási idejét a Token Superposition Training

A Nous Research kutatói egy új, kétfázisú módszert dolgoztak ki, amely jelentősen, akár 2,5-szeresére csökkentheti a nagy nyelvi modellek (LLM) előzetes betanításának idejét.

Akár 2,5-szeresére csökkenti a LLM-ek betanítási idejét a Token Superposition Training
Fotó: Fotó: National Institute of Allergy and Infectious Diseases / Unsplash
forrás: MarkTechPost·AI Forradalom szerk.·
Megosztás

A Nous Research bemutatta a Token Superposition Training (TST) nevű eljárását, amely a számítási kapacitás fixen tartása mellett is jelentősen csökkenti a LLM-ek betanítási idejét — írja a MarkTechPost. A módszer nem módosítja a modell architektúráját, az optimalizálót, a tokentizálót, a párhuzamosítási stratégiát vagy a betanítási adatokat.

A modern LLM-ek betanítása rendkívül adatintenzív, és a modellek gyakran jóval a számítási optimumon túl is túltanulnak. A TST célja, hogy növelje az adatátviteli sebességet, vagyis azt, hogy egy modell mennyi szöveget képes feldolgozni adott számítási kapacitással.

A TST áttörése: a szuperpozíció ereje

A TST két egymást követő fázisban módosítja a standard előzetes betanítási ciklust. Az első fázisban, a szuperpozíció során, a modell nem egyedi tokeneket kap. Ehelyett a bemeneti szekvenciát nem átfedő tokencsoportokra (úgynevezett „bag”-ekre) osztják. Az embedding rétegben minden csoportot egyetlen „s-tokenbe” vonnak össze a s token embeddingek átlagolásával.

Betanítás a sebesség és a pontosság jegyében

A Nous Research adatai szerint a 10B-A1B mixture-of-experts skálán a TST alacsonyabb végső betanítási veszteséget ért el, mint egy azonos FLOP-számú alapvonal, miközben 4768 B200-GPU-órát fogyasztott az alapvonal 12311 órájával szemben, ami körülbelül 2,5-szeres csökkenést jelent a teljes előzetes betanítási időben. A kutatók a DCLM adatkészletet használták a kisebb futtatásokhoz, és a DCLM és FineWeb-Edu 50/50 arányú keverékét a MoE futtatáshoz. A TST módszert négy különböző méretű modellen validálták, 270M-tól 10B paraméterig, beleértve a SmolLM2 és a Qwen3 család modelljeit is, és a HellaSwag teszten 71,2 pontot ért el a 10B-A1B MoE modell esetében.

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom