Modellek & LLM2026. jún. 2.frissítve: 15:50

ART-rendszer 20%-kal gyorsítja az LLM-ek válaszidejét — csökkenti a memóriaforgalmat

Az ART nevű új technika 20%-kal növeli a nagy nyelvi modellek generálási sebességét, miközben csökkenti a memóriaforgalmat.

Fotó: Steve A Johnson / Unsplash

forrás: ArXiv NLP·AI Forradalom szerk.·2026. június 2.

Megosztás

Az ART (Attention Run-time Termination) nevű új, könnyű mechanizmus csökkenti a nagy nyelvi modellek (LLM) dekódolási folyamatának memóriaigényét. A technika a kernel végrehajtása során figyeli a felhalmozódott figyelmi kimeneteket, és leállítja a további kulcs-érték (KV) blokkok elérését, ha azok hozzájárulása elhanyagolhatóvá válik — írja az arXiv.

A hosszú kontextusú dekódolás jelenleg a KV-cache lekéréséhez szükséges memória-sávszélesség miatt erősen korlátozott. A korábbi módszerek kulcs-alapú előzetes szűrésre támaszkodtak, figyelmen kívül hagyva, hogy a figyelmi kimenetek a kulcsoktól és értékektől is függenek. Az ART azonban integrálja az értékeket, anélkül, hogy jelentős többletterhelést okozna.

Kapcsolódó: LKV rendszer

Az ART-megoldás áttörése

Az ART-megoldás független a meglévő kulcs-alapú KV-cache kezelési módszerektől, így könnyen integrálható velük. A LongBench benchmarkokon végzett kísérletek kimutatták, hogy az ART 20%-kal magasabb generálási sebességet ért el nagy kötegelt méret mellett, összehasonlítható pontosság mellett.

Kapcsolódó: GQLA technológia

A hatékonyság növelése

A kutatás eredményei jelentős előrelépést jelentenek a nagy nyelvi modellek hatékonyságának növelésében. Az ART-technika bevezetése valós idejű optimalizálást tesz lehetővé a dekódolási folyamat során, ami különösen a hosszú szövegek feldolgozásánál lehet kulcsfontosságú. A fejlesztők az ART-et március végén tették elérhetővé az arXiv oldalon, ahol a kutatók március 25-én publikálták a részleteket.

Kapcsolódó: LLM-méret csökkentés

tetszett a cikk? oszd meg →

Megosztás