Feleannyi memóriával futnak a nyelvi modellek az új Toeplitz MLP Mixerrel
A Toeplitz MLP Mixer (TMM) felváltja a transzformerek figyelem-mechanizmusát, így a betanítás során O(dn log n) idő- és O(dn) térkomplexitással dolgozik.

A transzformer-alapú nagy nyelvi modellek (LLM) egyik legnagyobb korlátja a figyelmi mechanizmusuk kvadratikus számítási és memóriaigénye. Ezt a problémát orvosolná egy új architektúra, a Toeplitz MLP Mixer (TMM), amely a figyelmet háromszögmaszkos Toeplitz mátrixszorzással helyettesíti a szekvencia dimenziója mentén — írja egy friss, előnyomtatott tanulmány az arXiv-en.
A TMM jelentősen csökkenti a komplexitást: a betanítás során O(dn log n) idő- és O(dn) térkomplexitással működik, míg az inferencia előtöltésekor O(dn) idő- és térkomplexitást mutat. Ez a hatékonyságnövekedés kulcsfontosságú lehet a még nagyobb és összetettebb modellek fejlesztésében.
Az új architektúra áttörése
A kutatók szerint a TMM-ek nagyobb edzési hatékonyságot eredményeznek a számítási teljesítmény és az eszközmemória tekintetében. Ez azt jelenti, hogy kevesebb erőforrással érhetők el hasonló vagy jobb eredmények a modell betanítása során, ami jelentős költségmegtakarítást jelenthet.
A modellbetanítás hatékonysága
Emellett a TMM-ek több bemeneti információt képesek megőrizni, ami jobb másolási képességet eredményez, a kutatók állítása szerint. Ezt azzal magyarázzák, hogy az architektúra mentes az egyéb szubkvadratikus megoldásokban gyakran előforduló beépített torzításoktól. A nagyobb bemeneti információ-megtartás a TMM-ek kiváló információ-visszakeresési képességében is megmutatkozik.
A tanulmány szerint a Toeplitz MLP Mixer egy ígéretes alternatíva lehet a hagyományos transzformer architektúrák számára, különösen ott, ahol a számítási és memóriaigény kritikus tényező. A kutatók a GPT-4 modellekkel szembeni benchmarkokat 2024-ben tervezik elvégezni.