Frissítve: 2 órája·Ma: 14
Kutatás
AI által generált szöveg

Token-Selective Attention: 20%-kal kevesebb számítási műveletet igényel a transzformer

A Token-Selective Attention (TSA) nevű, tanult token-útválasztási technika a transzformerek számítási mélységét optimalizálja, így a modell hatékonyabban dolgozik.

Token-Selective Attention: 20%-kal kevesebb számítási műveletet igényel a transzformer
Fotó: BoliviaInteligente / Unsplash
Forrás: ArXiv MLSzerző: AI Forradalom szerk.
Megosztás

Új módszert dolgoztak ki a transzformer architektúrák hatékonyságának növelésére: a Token-Selective Attention (TSA) nevű rendszerrel a modellek a kontextuális nehézség alapján dinamikusan döntik el, hány réteget alkalmazzanak egy-egy tokenre — írja az ArXiv-on megjelent tanulmány.

A hagyományos transzformer modellek minden tokenre azonos számú réteget alkalmaznak, függetlenül attól, hogy az adott token mennyire „nehéz” vagy „könnyű” a feldolgozás szempontjából. A TSA azonban egy tanult, tokenenkénti kaput vezet be a transzformer blokkok közötti reziduális frissítésekre. Ez a kapu egy könnyű, kétrétegű több rétegű perceptron (MLP), amely folyamatos leállítási valószínűséget generál.

A mechanizmus teljesen differenciálható, és mindössze 1,7%-os paraméter-többlettel jár, anélkül, hogy a bázisarchitektúrán változtatni kellene. A TSA még explicit mélységi szabályozás nélkül is megtanulja a nehézségarányos útválasztást: a feladatveszteség-gradiens önmagában is arra ösztönzi az útválasztót, hogy a token-réteg műveletek 20%-át kihagyja.

Karakterszintű nyelvi modellezési feladatokon, mint a Tiny-Shakespeare és az enwik8, a TSA 14-23%-os token-réteg művelet (TLOps) megtakarítást ért el, miközben a minőségromlás kevesebb mint 0,5% volt. Az azonos hatékonyság mellett a TSA 0,7%-kal alacsonyabb validációs veszteséget mutatott, mint a korai kilépéses módszerek, ami a tanult útválasztás előnyét bizonyítja.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom