A LKV rendszer két nagyságrenddel csökkentheti a LLM-ek memóriaigényét
A Learned KV Eviction (LKV) nevű rendszer a meglévő heurisztikus módszerek korlátait áthidalva, feladat-specifikus optimalizációval kezeli a kulcs-érték (KV) gyorsítótár problémáját.

A nagyméretű nyelvi modellek (LLM) hosszú kontextusú következtetéseit jelentősen lassítja a kulcs-érték (KV) gyorsítótár lineáris memóriafogyasztása — írja az ArXiv-en megjelent tanulmány. A jelenlegi KV gyorsítótár-tömörítési paradigmák alapvetően korlátozottak a heurisztikus megközelítések miatt.
A heurisztikus költségvetés-tervezés statisztikai előzetes ismeretekre támaszkodik a feladatcélok helyett, ami erőforrás-rosszallokációhoz vezet. A heurisztikus kiválasztás pedig a lekérdezés-kulcs interakciókra vagy statikus induktív torzításokra (például figyelmi süllyesztőkre) épül. Ezek a módszerek nem a feladat céljaihoz igazodnak, így nem optimálisak.
A LKV (Learned KV Eviction) rendszert éppen e korlátok áthidalására fejlesztették ki, amely a KV-tömörítést végponttól végpontig differenciálható optimalizálási problémaként fogalmazza meg. A LKV integrálja a LKV-H komponenst, amely feladat-optimalizált globális költségvetéseket tanul, és a LKV-T komponenst, amely az intrinszik KV-fontosságot határozza meg anélkül, hogy figyelmi mátrixokat materializálna.
Ez a kialakítás megkerüli a heurisztikus proxykat, és szigorúan a feladatcélokhoz igazítja a tömörítést. A kiterjedt értékelések szerint a LKV a LongBench és a RULER benchmarkokon is a legmodernebb teljesítményt nyújtja, jelentősen javítva a LLM-ek hatékonyságát a hosszú kontextusú feladatoknál.