ArXiv: A szekvenciális KV cache tömörítés túlszárnyalja a per-vektor limiteket
A nagyméretű nyelvi modellek (LLM) működését gyorsító KV cache tömörítés új megközelítése jelentősen javíthatja az inferencia sebességét.

A transzformer alapú nyelvi modellek kulcsfontosságú eleme, a KV cache tömörítése régóta a kutatás fókuszában áll. A korábbi módszerek, mint a TurboQuant, megközelítették a Shannon-féle entrópiahatárt a per-vektoros tömörítés terén — írja az ArXiv-en megjelent kutatás.
Ez a korlát azonban egy gyengébb problémára vonatkozik, mint ami valójában számít: a KV cache szekvenciális tömörítésére. A KV cache-ben tárolt tokenek nem tetszőleges lebegőpontos adatok, hanem a modell betanításához használt formális nyelvből származó minták. A modell felépítésénél fogva közel optimális előrejelzője ennek a nyelvnek.
A kutatók bevezették a szekvenciális KV tömörítést, egy kétrétegű architektúrát, amely kihasználja ezt a belső struktúrát. Az első réteg, a probabilisztikus prefix deduplikáció, szemantikailag ekvivalens, megosztott prefixeket azonosít a munkamenetek között a Probabilistic Language Tries (PLT) d_T(s, s') = -log_2 P_M(s ^ s') metrikája alapján.
A második réteg, a prediktív delta kódolás, csak az egyes új KV vektorok maradékát tárolja a modell saját előrejelzéséhez képest. Ez a módszer a hagyományos per-vektoros tömörítésen túlmutató hatékonyságot ígér a 2604.15356v1 számú ArXiv publikáció szerint.