Kutatás2026. ápr. 20.frissítve: 13:50

ArXiv: A szekvenciális KV cache tömörítés túlszárnyalja a per-vektor limiteket

A nagyméretű nyelvi modellek (LLM) működését gyorsító KV cache tömörítés új megközelítése jelentősen javíthatja az inferencia sebességét.

Fotó: Fotó: Jakub Pabis / Unsplash

forrás: ArXiv ML·AI Forradalom szerk.·2026. április 20.

Megosztás

A transzformer alapú nyelvi modellek kulcsfontosságú eleme, a KV cache tömörítése régóta a kutatás fókuszában áll. A korábbi módszerek, mint a TurboQuant, megközelítették a Shannon-féle entrópiahatárt a per-vektoros tömörítés terén — írja az ArXiv-en megjelent kutatás.

Ez a korlát azonban egy gyengébb problémára vonatkozik, mint ami valójában számít: a KV cache szekvenciális tömörítésére. A KV cache-ben tárolt tokenek nem tetszőleges lebegőpontos adatok, hanem a modell betanításához használt formális nyelvből származó minták. A modell felépítésénél fogva közel optimális előrejelzője ennek a nyelvnek.

A kutatók bevezették a szekvenciális KV tömörítést, egy kétrétegű architektúrát, amely kihasználja ezt a belső struktúrát. Az első réteg, a probabilisztikus prefix deduplikáció, szemantikailag ekvivalens, megosztott prefixeket azonosít a munkamenetek között a Probabilistic Language Tries (PLT) d_T(s, s') = -log_2 P_M(s ^ s') metrikája alapján.

A második réteg, a prediktív delta kódolás, csak az egyes új KV vektorok maradékát tárolja a modell saját előrejelzéséhez képest. Ez a módszer a hagyományos per-vektoros tömörítésen túlmutató hatékonyságot ígér a 2604.15356v1 számú ArXiv publikáció szerint.

tetszett a cikk? oszd meg →

Megosztás