18-szoros gyorsulást hoz a hibrid nyelvi modelleknek az új dekódolási módszer

Jelentősen felgyorsíthatja a hibrid nyelvi modellek működését egy új, úgynevezett komponens-tudatos önspekulatív dekódolási módszer — derül ki az arXiv-on előnyomtatott formában megjelent kutatásból.

A spekulatív dekódolás lényege, hogy egy gyorsabb modell előzetes tokeneket generál, amelyeket a fő modell párhuzamosan ellenőriz. Az önspekulatív módszerek eddig kizárólag homogén Transformer architektúrákban működtek, külső segédmodell nélkül. Ez az új megközelítés viszont az első, amely a hibrid nyelvi modellek belső, heterogén architektúráját is kihasználja.

Belső architektúra, külső segítség nélkül

A kutatók a modell belső SSM/lineáris-figyelmi algráfját különítik el „ingyenes” belső vázlatként. Ez azt jelenti, hogy a hibrid modellek saját komponensei szolgálnak a token-generálás előkészítésére, így nincs szükség külön, kisebb segédmodellre, ami csökkenti a memóriaigényt és a komplexitást.

A tesztek során két eltérő hibrid architektúrát vizsgáltak: a párhuzamos Falcon-H1-et (Mamba-2 és figyelem rétegenként) és a szekvenciális Qwen3.5-öt (váltakozó lineáris és figyelmi rétegek). Egy tiszta Transformer modell, a Qwen2.5 szolgált kontrollcsoportként.

Az eredmények szerint a párhuzamos hibrid architektúrák, mint a Falcon-H1, lényegesen magasabb elfogadási arányt értek el: a greedy decoding mellett k=2 vázlathosszúságnál alpha = 0.68 volt az érték. Ezzel szemben a szekvenciális hibridek, mint a Qwen3.5, mindössze alpha = 0.038-as arányt mutattak, ami 18-szoros különbséget jelent a két architektúra között.

Ez a 18-szoros eltérés rávilágít arra, hogy a hibrid modellek belső felépítése kulcsfontosságú a spekulatív dekódolás hatékonyságában. A kutatás az arXiv:2605.01106v1 számon érhető el.