Kutatás2026. máj. 11.frissítve: 17:50

TwELL: új CUDA-kernel gyorsítja az LLM-ek betanítását 21,9%-kal, inferenciáját 20,5%-kal

A TwELL nevű megoldás a feedforward rétegek számításait teszi olcsóbbá a strukturálatlan ritkaság kihasználásával, anélkül, hogy a modell architektúráját megváltoztatná.

Fotó: Florian Krumm / Unsplash

forrás: MarkTechPost·AI Forradalom szerk.·2026. május 11.

Megosztás

A nagy nyelvi modellek (LLM) skálázása rendkívül költséges, mivel a tokenek feldolgozásának és a gradiens-számításoknak több mint kétharmada a feedforward rétegeken keresztül zajlik. Ezek a rétegek a nagyobb modellek teljes FLOP-számának több mint 80%-át teszik ki — írja a MarkTechPost.

A Sakana AI és az NVIDIA kutatói egy új módszert dolgoztak ki, amely közvetlenül ezt a szűk keresztmetszetet célozza. A TwELL névre keresztelt rendszer nem az architektúrát módosítja, hanem a feedforward rétegek számításait teszi lényegesen olcsóbbá a strukturálatlan ritkaság kihasználásával.

A ritkaság kihasználása

A transzformer modellek feedforward blokkjában az input tokenek csak kis része aktiválódik, a többi neuron nullát ad vissza az aktivációs függvény után. Ezt aktivációs ritkaságnak nevezik, de a korábbi GPU-optimalizációk nem tudták hatékonyan kihasználni, mivel a sűrű mátrixszorzásokra voltak kihegyezve.

Ritka formátumok hatékonysága

A TwELL egy új, csempe-alapú ritka formátum, amelyet kifejezetten a GPU-kernelek működéséhez igazítottak. Ez a megoldás a nem nulla értékeket helyben, csempéken belül csomagolja, így a konstrukció az existing gate projection kernel epilógusába integrálható, extra kernel indítása, memóriahozzáférés vagy szinkronizációs overhead nélkül.

A teljesítményteszt eredmények szerint a 2 milliárd paraméteres modelleknél 20,5%-os inferencia és 21,9%-os betanítási sebességnövekedést értek el, miközben az energiafogyasztás 17%-kal csökkent. A modell március végén kerül nyilvánosságra az NVIDIA által.

tetszett a cikk? oszd meg →

Megosztás