Frissítve: 8 perce·Ma: 59
Modellek & LLM
AI által generált szöveg

A TurboQuant-szerű KV cache trükk megérkezett a llama.cpp-be

A TurboQuant technológiának köszönhetően a KV cache mérete akár 4,6-szor csökkenhet anélkül, hogy az pontosság romlana.

A TurboQuant-szerű KV cache trükk megérkezett a llama.cpp-be
Fotó: Jakub Pabis / Unsplash
Forrás: Reddit LocalLLaMASzerző: AI Forradalom szerk.
Megosztás

A TurboQuant-szerű KV cache trükk most a llama.cpp-ben is elérhető. Az attn-rot technológia 4,6-szoros méretcsökkentést tesz lehetővé a KV cache-ben, miközben a pontosság nem szenved csökkenést.

Ez a fejlesztés a kv cache memóriaszerkezetének újragondolásán alapul, amelyet a TurboQuant kutatók hoztak létre. A kv cache tömörítése jelentősen csökkenti a memóriahasználatot, ami különösen fontos a hatékony edge telepítés esetében.

Az implementáció a llama.cpp-ben a split+calibration módszert használja, amely alacsony bit-számú kv cache quantization-t tesz lehetővé. A kísérleti eredmények mutatják, hogy a 3- és 4-bites kv cache 4,6-szoros tömörítésével a modell teljesítménye szinte megegyezik az eredeti f16 verzióval.

A TurboQuant plusz projekt már integrálta a llama.cpp/Metal verziót Apple Silicon-ra, és a turbo3, turbo4 kv cache típusokkal a végfelhasználói szolgáltatásban a teljesítmény a q8_0 szintjéhez közelíti, miközben a kv cache 4,6-szoros tömörítést biztosít.

Mi a következő lépés? A fejlesztők most a fő ágon (mainline) dolgoznak a PR-en, hogy a kv cache tömörítés beépüljön a rendszerbe, ami jelentősen átalakíthatja a memóriakezelést a jövőben.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom