Modellek & LLM2026. ápr. 1.frissítve: 21:45

A TurboQuant-szerű KV cache trükk megérkezett a llama.cpp-be

A TurboQuant technológiának köszönhetően a KV cache mérete akár 4,6-szor csökkenhet anélkül, hogy az pontosság romlana.

Fotó: Fotó: Jakub Pabis / Unsplash

forrás: Reddit LocalLLaMA·AI Forradalom szerk.·2026. április 1.

Megosztás

A TurboQuant-szerű KV cache trükk most a llama.cpp-ben is elérhető. Az attn-rot technológia 4,6-szoros méretcsökkentést tesz lehetővé a KV cache-ben, miközben a pontosság nem szenved csökkenést.

Ez a fejlesztés a kv cache memóriaszerkezetének újragondolásán alapul, amelyet a TurboQuant kutatók hoztak létre. A kv cache tömörítése jelentősen csökkenti a memóriahasználatot, ami különösen fontos a hatékony edge telepítés esetében.

Az implementáció a llama.cpp-ben a split+calibration módszert használja, amely alacsony bit-számú kv cache quantization-t tesz lehetővé. A kísérleti eredmények mutatják, hogy a 3- és 4-bites kv cache 4,6-szoros tömörítésével a modell teljesítménye szinte megegyezik az eredeti f16 verzióval.

A TurboQuant plusz projekt már integrálta a llama.cpp/Metal verziót Apple Silicon-ra, és a turbo3, turbo4 kv cache típusokkal a végfelhasználói szolgáltatásban a teljesítmény a q8_0 szintjéhez közelíti, miközben a kv cache 4,6-szoros tömörítést biztosít.

Mi a következő lépés? A fejlesztők most a fő ágon (mainline) dolgoznak a PR-en, hogy a kv cache tömörítés beépüljön a rendszerbe, ami jelentősen átalakíthatja a memóriakezelést a jövőben.

tetszett a cikk? oszd meg →

Megosztás