Frissítve: 2 órája·Ma: 14
Kutatás
AI által generált szöveg

LayerBoost: Rétegszelektív figyelemcsökkentéssel gyorsítaná a LLM-eket az új módszer

A LayerBoost a transzformátor modellek figyelem mechanizmusát módosítja, elkerülve a teljesítményromlást, ami a korábbi egységes megközelítéseknél gyakori volt.

LayerBoost: Rétegszelektív figyelemcsökkentéssel gyorsítaná a LLM-eket az új módszer
Fotó: Sahand Babali / Unsplash
Forrás: ArXiv MLSzerző: AI Forradalom szerk.
Megosztás

Jelentősen gyorsíthatja a nagy nyelvi modellek (LLM) következtetési sebességét egy új, rétegszelektív figyelmi mechanizmus, a LayerBoost — írja az ArXiv ML-en megjelent tanulmány.

A transzformátor architektúrákban a softmax figyelem mechanizmus kvadratikus komplexitása, a szekvenciahossz függvényében, komoly szűk keresztmetszetet jelent a LLM-ek hatékony működésében. Korábbi lineáris vagy hibrid figyelmi megoldások jellemzően egységesen cserélték le a softmax figyelmet az összes rétegben, ami gyakran jelentős teljesítményromláshoz vagy kiterjedt újratanításhoz vezetett.

A LayerBoost ezzel szemben rétegérzékeny figyelemcsökkentési módszert javasol, amely szelektíven módosítja a figyelmi mechanizmust az egyes transzformátor rétegek érzékenysége alapján. Először szisztematikus érzékenységi elemzést végez egy előre betanított modellen, hogy azonosítsa azokat a rétegeket, amelyek kritikusak a teljesítmény fenntartásához.

Ez az elemzés három különböző stratégiát tesz lehetővé: a standard softmax figyelem megtartását a rendkívül érzékeny rétegekben, annak lineáris csúszóablakos figyelemmel való felváltását a mérsékelten érzékeny rétegekben, és bizonyos rétegek figyelmének teljes eltávolítását.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom