Új módszer gyorsítja a Diffusion LLM-ek válaszidejét — 37%-kal több adatot dolgoz fel
A Fast-dLLM++ Fréchet profil dekódolással gyorsítja a Diffusion LLM-ek válaszidejét, akár 37%-kal növelve a sebességet a LLaDA-8B modellen.

A Diffusion LLM-ek ígéretesek a párhuzamos token-generálás terén, ám válaszidejüket továbbra is a maszkolt tokenek kiválasztásának lassúsága korlátozza. A korábbi Fast-dLLM módszer KV gyorsítótárazást és magabiztosság-vezérelt dekódolást használt, de feltételezte, hogy minden jelölt token azonos magabiztossággal rendelkezik, ami a leggyengébb token szintjére korlátozta a sebességet.
A kutatók most bemutatták a Fast-dLLM++ nevü, tréning-mentes bővítést, amely a Fréchet profil dekódolást vezeti be. Ez a teljes, rendezett magabiztossági profilból választja ki a párhuzamosan feldolgozható tokenkészleteket, nem csak a leggyengébbből indul ki. Az új szabály a Fast-dLLM faktor-kiválasztójának heterogén magabiztosságú általánosítása, amely egyenlő magabiztosság esetén pontosan visszaadja a korábbi szabályt, és egy bizonyítható heterogenitási bónuszt ad, ha a kiválasztott tokenek magabiztossága egyenlőtlen — írja az ArXiv NLP.
Kapcsolódó: multimodális teszt
Heterogenitási bónusz a sebességért
A Fast-dLLM++ nem változtat a modellen, a diffúziós folyamaton vagy a gyorsítótár implementációján, így könnyen bevezethető a meglévõ Fast-dLLM dekódolás helyett. A LLaDA-8B modellel végzett kísérletek GSM8K, MATH, HumanEval és MBPP benchmarkokon kimutatták, hogy az elméleti fejlesztés gyakorlati előnyekben is megmutatkozik.
Kapcsolódó: diffúziós nyelvi modellek
37%-kal gyorsabb feldolgozás
A profil-tudatos kiválasztás kihasználja a biztonságos párhuzamosságot, amelyet a leggyengébb tokenre optimalizált szabályok kihagynak. Ez akár 37%-kal magasabb átviteli sebességet eredményezett azonos pontosság mellett. A kutatók közre is tettek egy anonim kód-kiadást a GitHubon.
Kapcsolódó: autoregresszív rést