ÉlőUtoljára: 43 perceMa: 25
Modellek & LLMfrissítve: 13:50

ART-rendszer 20%-kal gyorsítja a LLM-ek válaszidejét — csökkenti a memóriaforgalmat

Az ART nevű új technika 20%-kal növeli a nagy nyelvi modellek generálási sebességét, miközben csökkenti a memóriaforgalmat.

ART-rendszer 20%-kal gyorsítja a LLM-ek válaszidejét — csökkenti a memóriaforgalmat
Fotó: Fotó: Steve A Johnson / Unsplash
forrás: ArXiv NLP·AI Forradalom szerk.·
Megosztás

Az ART (Attention Run-time Termination) nevű új, könnyű mechanizmus csökkenti a nagy nyelvi modellek (LLM) dekódolási folyamatának memóriaigényét. A technika a kernel végrehajtása során figyeli a felhalmozódott figyelmi kimeneteket, és leállítja a további kulcs-érték (KV) blokkok elérését, ha azok hozzájárulása elhanyagolhatóvá válik — írja az arXiv.

A hosszú kontextusú dekódolás jelenleg a KV-cache lekéréséhez szükséges memória-sávszélesség miatt erősen korlátozott. A korábbi módszerek kulcs-alapú előzetes szűrésre támaszkodtak, figyelmen kívül hagyva, hogy a figyelmi kimenetek a kulcsoktól és értékektől is függenek. Az ART azonban integrálja az értékeket, anélkül, hogy jelentős többletterhelést okozna.

Kapcsolódó: LKV rendszer

Az ART-megoldás áttörése

Az ART-megoldás független a meglévő kulcs-alapú KV-cache kezelési módszerektől, így könnyen integrálható velük. A LongBench benchmarkokon végzett kísérletek kimutatták, hogy az ART 20%-kal magasabb generálási sebességet ért el nagy kötegelt méret mellett, összehasonlítható pontosság mellett.

Kapcsolódó: GQLA technológia

A hatékonyság növelése

A kutatás eredményei jelentős előrelépést jelentenek a nagy nyelvi modellek hatékonyságának növelésében. Az ART-technika bevezetése valós idejű optimalizálást tesz lehetővé a dekódolási folyamat során, ami különösen a hosszú szövegek feldolgozásánál lehet kulcsfontosságú. A fejlesztők az ART-et március végén tették elérhetővé az arXiv oldalon, ahol a kutatók március 25-én publikálták a részleteket.

Kapcsolódó: LLM-méret csökkentés

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom