ÉlőUtoljára: 30 perceMa: 11
Modellek & LLMfrissítve: 04:10

Új módszer gyorsítja a Diffusion LLM-ek válaszidejét — 37%-kal több adatot dolgoz fel

A Fast-dLLM++ Fréchet profil dekódolással gyorsítja a Diffusion LLM-ek válaszidejét, akár 37%-kal növelve a sebességet a LLaDA-8B modellen.

Új módszer gyorsítja a Diffusion LLM-ek válaszidejét — 37%-kal több adatot dolgoz fel
Fotó: Fotó: Kier in Sight Archives / Unsplash
forrás: ArXiv NLP·AI Forradalom szerk.·
Megosztás

A Diffusion LLM-ek ígéretesek a párhuzamos token-generálás terén, ám válaszidejüket továbbra is a maszkolt tokenek kiválasztásának lassúsága korlátozza. A korábbi Fast-dLLM módszer KV gyorsítótárazást és magabiztosság-vezérelt dekódolást használt, de feltételezte, hogy minden jelölt token azonos magabiztossággal rendelkezik, ami a leggyengébb token szintjére korlátozta a sebességet.

A kutatók most bemutatták a Fast-dLLM++ nevü, tréning-mentes bővítést, amely a Fréchet profil dekódolást vezeti be. Ez a teljes, rendezett magabiztossági profilból választja ki a párhuzamosan feldolgozható tokenkészleteket, nem csak a leggyengébbből indul ki. Az új szabály a Fast-dLLM faktor-kiválasztójának heterogén magabiztosságú általánosítása, amely egyenlő magabiztosság esetén pontosan visszaadja a korábbi szabályt, és egy bizonyítható heterogenitási bónuszt ad, ha a kiválasztott tokenek magabiztossága egyenlőtlen — írja az ArXiv NLP.

Kapcsolódó: multimodális teszt

Heterogenitási bónusz a sebességért

A Fast-dLLM++ nem változtat a modellen, a diffúziós folyamaton vagy a gyorsítótár implementációján, így könnyen bevezethető a meglévõ Fast-dLLM dekódolás helyett. A LLaDA-8B modellel végzett kísérletek GSM8K, MATH, HumanEval és MBPP benchmarkokon kimutatták, hogy az elméleti fejlesztés gyakorlati előnyekben is megmutatkozik.

Kapcsolódó: diffúziós nyelvi modellek

37%-kal gyorsabb feldolgozás

A profil-tudatos kiválasztás kihasználja a biztonságos párhuzamosságot, amelyet a leggyengébb tokenre optimalizált szabályok kihagynak. Ez akár 37%-kal magasabb átviteli sebességet eredményezett azonos pontosság mellett. A kutatók közre is tettek egy anonim kód-kiadást a GitHubon.

Kapcsolódó: autoregresszív rést

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom