Modellek & LLM2026. jún. 3.frissítve: 06:10

Új módszer gyorsítja a Diffusion LLM-ek válaszidejét — 37%-kal több adatot dolgoz fel

A Fast-dLLM++ Fréchet profil dekódolással gyorsítja a Diffusion LLM-ek válaszidejét, akár 37%-kal növelve a sebességet a LLaDA-8B modellen.

Fotó: Kier in Sight Archives / Unsplash

forrás: ArXiv NLP·AI Forradalom szerk.·2026. június 3.

Megosztás

A Diffusion LLM-ek ígéretesek a párhuzamos token-generálás terén, ám válaszidejüket továbbra is a maszkolt tokenek kiválasztásának lassúsága korlátozza. A korábbi Fast-dLLM módszer KV gyorsítótárazást és magabiztosság-vezérelt dekódolást használt, de feltételezte, hogy minden jelölt token azonos magabiztossággal rendelkezik, ami a leggyengébb token szintjére korlátozta a sebességet.

A kutatók most bemutatták a Fast-dLLM++ nevü, tréning-mentes bővítést, amely a Fréchet profil dekódolást vezeti be. Ez a teljes, rendezett magabiztossági profilból választja ki a párhuzamosan feldolgozható tokenkészleteket, nem csak a leggyengébbből indul ki. Az új szabály a Fast-dLLM faktor-kiválasztójának heterogén magabiztosságú általánosítása, amely egyenlő magabiztosság esetén pontosan visszaadja a korábbi szabályt, és egy bizonyítható heterogenitási bónuszt ad, ha a kiválasztott tokenek magabiztossága egyenlőtlen — írja az ArXiv NLP.

Kapcsolódó: multimodális teszt

Heterogenitási bónusz a sebességért

A Fast-dLLM++ nem változtat a modellen, a diffúziós folyamaton vagy a gyorsítótár implementációján, így könnyen bevezethető a meglévõ Fast-dLLM dekódolás helyett. A LLaDA-8B modellel végzett kísérletek GSM8K, MATH, HumanEval és MBPP benchmarkokon kimutatták, hogy az elméleti fejlesztés gyakorlati előnyekben is megmutatkozik.

Kapcsolódó: diffúziós nyelvi modellek

37%-kal gyorsabb feldolgozás

A profil-tudatos kiválasztás kihasználja a biztonságos párhuzamosságot, amelyet a leggyengébb tokenre optimalizált szabályok kihagynak. Ez akár 37%-kal magasabb átviteli sebességet eredményezett azonos pontosság mellett. A kutatók közre is tettek egy anonim kód-kiadást a GitHubon.

Kapcsolódó: autoregresszív rést

tetszett a cikk? oszd meg →

Megosztás