ART-rendszer 20%-kal gyorsítja a LLM-ek válaszidejét — csökkenti a memóriaforgalmat
Az ART nevű új technika 20%-kal növeli a nagy nyelvi modellek generálási sebességét, miközben csökkenti a memóriaforgalmat.

Az ART (Attention Run-time Termination) nevű új, könnyű mechanizmus csökkenti a nagy nyelvi modellek (LLM) dekódolási folyamatának memóriaigényét. A technika a kernel végrehajtása során figyeli a felhalmozódott figyelmi kimeneteket, és leállítja a további kulcs-érték (KV) blokkok elérését, ha azok hozzájárulása elhanyagolhatóvá válik — írja az arXiv.
A hosszú kontextusú dekódolás jelenleg a KV-cache lekéréséhez szükséges memória-sávszélesség miatt erősen korlátozott. A korábbi módszerek kulcs-alapú előzetes szűrésre támaszkodtak, figyelmen kívül hagyva, hogy a figyelmi kimenetek a kulcsoktól és értékektől is függenek. Az ART azonban integrálja az értékeket, anélkül, hogy jelentős többletterhelést okozna.
Kapcsolódó: LKV rendszer
Az ART-megoldás áttörése
Az ART-megoldás független a meglévő kulcs-alapú KV-cache kezelési módszerektől, így könnyen integrálható velük. A LongBench benchmarkokon végzett kísérletek kimutatták, hogy az ART 20%-kal magasabb generálási sebességet ért el nagy kötegelt méret mellett, összehasonlítható pontosság mellett.
Kapcsolódó: GQLA technológia
A hatékonyság növelése
A kutatás eredményei jelentős előrelépést jelentenek a nagy nyelvi modellek hatékonyságának növelésében. Az ART-technika bevezetése valós idejű optimalizálást tesz lehetővé a dekódolási folyamat során, ami különösen a hosszú szövegek feldolgozásánál lehet kulcsfontosságú. A fejlesztők az ART-et március végén tették elérhetővé az arXiv oldalon, ahol a kutatók március 25-én publikálták a részleteket.
Kapcsolódó: LLM-méret csökkentés