Frissítve: 2 órája·Ma: 4
Kutatás
AI által generált szöveg

18-szoros gyorsulást hoz a hibrid nyelvi modelleknek az új dekódolási módszer

A módszer a hibrid modellek belső architektúráját használja ki, így külső segédmodell nélkül is jelentősen gyorsítja a token-generálást.

18-szoros gyorsulást hoz a hibrid nyelvi modelleknek az új dekódolási módszer
Fotó: Onur Binay / Unsplash
Forrás: ArXiv NLPSzerző: AI Forradalom szerk.
Megosztás

Jelentősen felgyorsíthatja a hibrid nyelvi modellek működését egy új, úgynevezett komponens-tudatos önspekulatív dekódolási módszer — derül ki az arXiv-on előnyomtatott formában megjelent kutatásból.

A spekulatív dekódolás lényege, hogy egy gyorsabb modell előzetes tokeneket generál, amelyeket a fő modell párhuzamosan ellenőriz. Az önspekulatív módszerek eddig kizárólag homogén Transformer architektúrákban működtek, külső segédmodell nélkül. Ez az új megközelítés viszont az első, amely a hibrid nyelvi modellek belső, heterogén architektúráját is kihasználja.

Belső architektúra, külső segítség nélkül

A kutatók a modell belső SSM/lineáris-figyelmi algráfját különítik el „ingyenes” belső vázlatként. Ez azt jelenti, hogy a hibrid modellek saját komponensei szolgálnak a token-generálás előkészítésére, így nincs szükség külön, kisebb segédmodellre, ami csökkenti a memóriaigényt és a komplexitást.

A tesztek során két eltérő hibrid architektúrát vizsgáltak: a párhuzamos Falcon-H1-et (Mamba-2 és figyelem rétegenként) és a szekvenciális Qwen3.5-öt (váltakozó lineáris és figyelmi rétegek). Egy tiszta Transformer modell, a Qwen2.5 szolgált kontrollcsoportként.

Az eredmények szerint a párhuzamos hibrid architektúrák, mint a Falcon-H1, lényegesen magasabb elfogadási arányt értek el: a greedy decoding mellett k=2 vázlathosszúságnál alpha = 0.68 volt az érték. Ezzel szemben a szekvenciális hibridek, mint a Qwen3.5, mindössze alpha = 0.038-as arányt mutattak, ami 18-szoros különbséget jelent a két architektúra között.

Ez a 18-szoros eltérés rávilágít arra, hogy a hibrid modellek belső felépítése kulcsfontosságú a spekulatív dekódolás hatékonyságában. A kutatás az arXiv:2605.01106v1 számon érhető el.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom