ÉlőUtoljára: 1 perceMa: 24
Kutatásfrissítve: 12:50

Feleannyi memóriával futnak a nyelvi modellek az új Toeplitz MLP Mixerrel

A Toeplitz MLP Mixer (TMM) felváltja a transzformerek figyelem-mechanizmusát, így a betanítás során O(dn log n) idő- és O(dn) térkomplexitással dolgozik.

Feleannyi memóriával futnak a nyelvi modellek az új Toeplitz MLP Mixerrel
Fotó: Fotó: Nguyễn Hiệp / Unsplash
forrás: ArXiv ML·AI Forradalom szerk.·
Megosztás

A transzformer-alapú nagy nyelvi modellek (LLM) egyik legnagyobb korlátja a figyelmi mechanizmusuk kvadratikus számítási és memóriaigénye. Ezt a problémát orvosolná egy új architektúra, a Toeplitz MLP Mixer (TMM), amely a figyelmet háromszögmaszkos Toeplitz mátrixszorzással helyettesíti a szekvencia dimenziója mentén — írja egy friss, előnyomtatott tanulmány az arXiv-en.

A TMM jelentősen csökkenti a komplexitást: a betanítás során O(dn log n) idő- és O(dn) térkomplexitással működik, míg az inferencia előtöltésekor O(dn) idő- és térkomplexitást mutat. Ez a hatékonyságnövekedés kulcsfontosságú lehet a még nagyobb és összetettebb modellek fejlesztésében.

Az új architektúra áttörése

A kutatók szerint a TMM-ek nagyobb edzési hatékonyságot eredményeznek a számítási teljesítmény és az eszközmemória tekintetében. Ez azt jelenti, hogy kevesebb erőforrással érhetők el hasonló vagy jobb eredmények a modell betanítása során, ami jelentős költségmegtakarítást jelenthet.

A modellbetanítás hatékonysága

Emellett a TMM-ek több bemeneti információt képesek megőrizni, ami jobb másolási képességet eredményez, a kutatók állítása szerint. Ezt azzal magyarázzák, hogy az architektúra mentes az egyéb szubkvadratikus megoldásokban gyakran előforduló beépített torzításoktól. A nagyobb bemeneti információ-megtartás a TMM-ek kiváló információ-visszakeresési képességében is megmutatkozik.

A tanulmány szerint a Toeplitz MLP Mixer egy ígéretes alternatíva lehet a hagyományos transzformer architektúrák számára, különösen ott, ahol a számítási és memóriaigény kritikus tényező. A kutatók a GPT-4 modellekkel szembeni benchmarkokat 2024-ben tervezik elvégezni.

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom