LayerBoost: Rétegszelektív figyelemcsökkentéssel gyorsítaná a LLM-eket az új módszer
A LayerBoost a transzformátor modellek figyelem mechanizmusát módosítja, elkerülve a teljesítményromlást, ami a korábbi egységes megközelítéseknél gyakori volt.

Jelentősen gyorsíthatja a nagy nyelvi modellek (LLM) következtetési sebességét egy új, rétegszelektív figyelmi mechanizmus, a LayerBoost — írja az ArXiv ML-en megjelent tanulmány.
A transzformátor architektúrákban a softmax figyelem mechanizmus kvadratikus komplexitása, a szekvenciahossz függvényében, komoly szűk keresztmetszetet jelent a LLM-ek hatékony működésében. Korábbi lineáris vagy hibrid figyelmi megoldások jellemzően egységesen cserélték le a softmax figyelmet az összes rétegben, ami gyakran jelentős teljesítményromláshoz vagy kiterjedt újratanításhoz vezetett.
A LayerBoost ezzel szemben rétegérzékeny figyelemcsökkentési módszert javasol, amely szelektíven módosítja a figyelmi mechanizmust az egyes transzformátor rétegek érzékenysége alapján. Először szisztematikus érzékenységi elemzést végez egy előre betanított modellen, hogy azonosítsa azokat a rétegeket, amelyek kritikusak a teljesítmény fenntartásához.
Ez az elemzés három különböző stratégiát tesz lehetővé: a standard softmax figyelem megtartását a rendkívül érzékeny rétegekben, annak lineáris csúszóablakos figyelemmel való felváltását a mérsékelten érzékeny rétegekben, és bizonyos rétegek figyelmének teljes eltávolítását.