A Google TurboQuantja 90%-kal csökkenti a memóriaigényt
A TurboQuant fejlesztésében a Google egy olyan algoritmust hozott létre, amely a vektorok polar koordinátákba való átalakításával képes csökkenteni a memóriaigényt.

A Google kutatói a TurboQuant nevű algoritmus révén 90 %-os memóriaigény-csökkentést értek el a KV cache-ben. A cég a vektorokat polar koordinátákba alakítja, majd egy kétlépcsős folyamaton keresztül tömöríti őket. A 90 %-os szám a kvantálási szint csökkentésére utal, amely a 32‑bit vagy 16‑bit precíziós tárolás helyett akár 3‑bit vagy 4‑bit megoldást tesz lehetővé.
Miért fontos ez? A nagy nyelvi modellek (LLM) minden tokenhez három vektort—query, key, value—generál, és a kvantálás nélküli tárolás memóriát igényel, amely a modell súlyainál is nagyobb lehet egy hosszú kontextus esetén. A KV cache növekedése miatt a GPU memóriára jelentős nyomás épül, ami korlátozza a párhuzamos felhasználók számát és a hosszú szövegfeldolgozást. A TurboQuant a kvantálási túlterhelést csökkenti, így a memóriabújítás helyett a „jobb matematikát” alkalmazza.
A technológia első lépése, a PolarQuant, a vektorokat polar koordinátákra (szélesség, magasság) alakítja. A magas dimenziós térben ezek az értékek erősen koncentrálódnak, így a szögeloszlás jól előre meghatározható. Ez lehetővé teszi a normálás elhagyását és a kvantálás során keletkező metadata nélkülözését, ami a hagyományos módszereknél 1–2 bitnyi fölöslegességet jelent. A második lépés, a QJL (Quantised Johnson‑Lindenstrauss), finomhangolja a tömörítést, minimalizálva a kvantálási hibát.
A Google eredménye azt sugallja, hogy a KV cache memóriatakarékossága nem csak a hardver bővítésén múlik. A TurboQuant megkönnyíti a nagy kontextusok kezelését anélkül, hogy a pontosság jelentősen romlana. A cikk szerint a technológia nem igényel adatspecifikus finomhangolást, így a modellek közötti átjárhatóság is növekszik.
Jelenleg a Google publikálta a TurboQuant kutatási cikkét, de a részletes implementációs részletek még nem kerültek nyilvánosságra. A következő hetekben várható, hogy a cég bemutatja a prototípusokat, és esetleg API‑k vagy SDK‑k formájában teszi elérhetővé a kutatási közösség számára. A memóriabújítási trendek közepette a TurboQuant egy új irányt jelölhet a nagy nyelvi modellek hatékonyságának növelésében.