A TurboQuant-szerű KV cache trükk megérkezett a llama.cpp-be
A TurboQuant technológiának köszönhetően a KV cache mérete akár 4,6-szor csökkenhet anélkül, hogy az pontosság romlana.

A TurboQuant-szerű KV cache trükk most a llama.cpp-ben is elérhető. Az attn-rot technológia 4,6-szoros méretcsökkentést tesz lehetővé a KV cache-ben, miközben a pontosság nem szenved csökkenést.
Ez a fejlesztés a kv cache memóriaszerkezetének újragondolásán alapul, amelyet a TurboQuant kutatók hoztak létre. A kv cache tömörítése jelentősen csökkenti a memóriahasználatot, ami különösen fontos a hatékony edge telepítés esetében.
Az implementáció a llama.cpp-ben a split+calibration módszert használja, amely alacsony bit-számú kv cache quantization-t tesz lehetővé. A kísérleti eredmények mutatják, hogy a 3- és 4-bites kv cache 4,6-szoros tömörítésével a modell teljesítménye szinte megegyezik az eredeti f16 verzióval.
A TurboQuant plusz projekt már integrálta a llama.cpp/Metal verziót Apple Silicon-ra, és a turbo3, turbo4 kv cache típusokkal a végfelhasználói szolgáltatásban a teljesítmény a q8_0 szintjéhez közelíti, miközben a kv cache 4,6-szoros tömörítést biztosít.
Mi a következő lépés? A fejlesztők most a fő ágon (mainline) dolgoznak a PR-en, hogy a kv cache tömörítés beépüljön a rendszerbe, ami jelentősen átalakíthatja a memóriakezelést a jövőben.