Akár 2,5-szeresére csökkenti a LLM-ek betanítási idejét a Token Superposition Training
A Nous Research kutatói egy új, kétfázisú módszert dolgoztak ki, amely jelentősen, akár 2,5-szeresére csökkentheti a nagy nyelvi modellek (LLM) előzetes betanításának idejét.

A Nous Research bemutatta a Token Superposition Training (TST) nevű eljárását, amely a számítási kapacitás fixen tartása mellett is jelentősen csökkenti a LLM-ek betanítási idejét — írja a MarkTechPost. A módszer nem módosítja a modell architektúráját, az optimalizálót, a tokentizálót, a párhuzamosítási stratégiát vagy a betanítási adatokat.
A modern LLM-ek betanítása rendkívül adatintenzív, és a modellek gyakran jóval a számítási optimumon túl is túltanulnak. A TST célja, hogy növelje az adatátviteli sebességet, vagyis azt, hogy egy modell mennyi szöveget képes feldolgozni adott számítási kapacitással.
A TST áttörése: a szuperpozíció ereje
A TST két egymást követő fázisban módosítja a standard előzetes betanítási ciklust. Az első fázisban, a szuperpozíció során, a modell nem egyedi tokeneket kap. Ehelyett a bemeneti szekvenciát nem átfedő tokencsoportokra (úgynevezett „bag”-ekre) osztják. Az embedding rétegben minden csoportot egyetlen „s-tokenbe” vonnak össze a s token embeddingek átlagolásával.
Betanítás a sebesség és a pontosság jegyében
A Nous Research adatai szerint a 10B-A1B mixture-of-experts skálán a TST alacsonyabb végső betanítási veszteséget ért el, mint egy azonos FLOP-számú alapvonal, miközben 4768 B200-GPU-órát fogyasztott az alapvonal 12311 órájával szemben, ami körülbelül 2,5-szeres csökkenést jelent a teljes előzetes betanítási időben. A kutatók a DCLM adatkészletet használták a kisebb futtatásokhoz, és a DCLM és FineWeb-Edu 50/50 arányú keverékét a MoE futtatáshoz. A TST módszert négy különböző méretű modellen validálták, 270M-tól 10B paraméterig, beleértve a SmolLM2 és a Qwen3 család modelljeit is, és a HellaSwag teszten 71,2 pontot ért el a 10B-A1B MoE modell esetében.