Token-Selective Attention: 20%-kal kevesebb számítási műveletet igényel a transzformer

Új módszert dolgoztak ki a transzformer architektúrák hatékonyságának növelésére: a Token-Selective Attention (TSA) nevű rendszerrel a modellek a kontextuális nehézség alapján dinamikusan döntik el, hány réteget alkalmazzanak egy-egy tokenre — írja az ArXiv-on megjelent tanulmány.

A hagyományos transzformer modellek minden tokenre azonos számú réteget alkalmaznak, függetlenül attól, hogy az adott token mennyire „nehéz” vagy „könnyű” a feldolgozás szempontjából. A TSA azonban egy tanult, tokenenkénti kaput vezet be a transzformer blokkok közötti reziduális frissítésekre. Ez a kapu egy könnyű, kétrétegű több rétegű perceptron (MLP), amely folyamatos leállítási valószínűséget generál.

A mechanizmus teljesen differenciálható, és mindössze 1,7%-os paraméter-többlettel jár, anélkül, hogy a bázisarchitektúrán változtatni kellene. A TSA még explicit mélységi szabályozás nélkül is megtanulja a nehézségarányos útválasztást: a feladatveszteség-gradiens önmagában is arra ösztönzi az útválasztót, hogy a token-réteg műveletek 20%-át kihagyja.

Karakterszintű nyelvi modellezési feladatokon, mint a Tiny-Shakespeare és az enwik8, a TSA 14-23%-os token-réteg művelet (TLOps) megtakarítást ért el, miközben a minőségromlás kevesebb mint 0,5% volt. Az azonos hatékonyság mellett a TSA 0,7%-kal alacsonyabb validációs veszteséget mutatott, mint a korai kilépéses módszerek, ami a tanult útválasztás előnyét bizonyítja.