Kutatás2026. ápr. 27.frissítve: 06:50

LayerBoost: Rétegszelektív figyelemcsökkentéssel gyorsítaná az LLM-eket az új módszer

A LayerBoost a transzformátor modellek figyelem mechanizmusát módosítja, elkerülve a teljesítményromlást, ami a korábbi egységes megközelítéseknél gyakori volt.

Fotó: Sahand Babali / Unsplash

forrás: ArXiv ML·AI Forradalom szerk.·2026. április 27.

Megosztás

Jelentősen gyorsíthatja a nagy nyelvi modellek (LLM) következtetési sebességét egy új, rétegszelektív figyelmi mechanizmus, a LayerBoost — írja az ArXiv ML-en megjelent tanulmány.

A transzformátor architektúrákban a softmax figyelem mechanizmus kvadratikus komplexitása, a szekvenciahossz függvényében, komoly szűk keresztmetszetet jelent az LLM-ek hatékony működésében. Korábbi lineáris vagy hibrid figyelmi megoldások jellemzően egységesen cserélték le a softmax figyelmet az összes rétegben, ami gyakran jelentős teljesítményromláshoz vagy kiterjedt újratanításhoz vezetett.

A LayerBoost ezzel szemben rétegérzékeny figyelemcsökkentési módszert javasol, amely szelektíven módosítja a figyelmi mechanizmust az egyes transzformátor rétegek érzékenysége alapján. Először szisztematikus érzékenységi elemzést végez egy előre betanított modellen, hogy azonosítsa azokat a rétegeket, amelyek kritikusak a teljesítmény fenntartásához.

Ez az elemzés három különböző stratégiát tesz lehetővé: a standard softmax figyelem megtartását a rendkívül érzékeny rétegekben, annak lineáris csúszóablakos figyelemmel való felváltását a mérsékelten érzékeny rétegekben, és bizonyos rétegek figyelmének teljes eltávolítását.

tetszett a cikk? oszd meg →

Megosztás