Modellek & LLM2026. márc. 27.frissítve: 10:05

A Google TurboQuant algoritmusa 6-szor csökkenti az AI memóriahasználatot

A Google szerint a TurboQuant 8-szoros teljesítménynövekedést és 6-szoros memóriahasználat-csökkenést ért el bizonyos tesztekben.

Fotó: Akshat Sharma / Unsplash

forrás: Ars Technica·AI Forradalom szerk.·2026. március 27.

Megosztás

A Google kutatócsoportja a TurboQuant nevű új tömörítési algoritmussal jelentette be, hogy a nagy nyelvi modellek (LLM) kulcs‑érték cache‑je 6‑szoros memóriahasználat‑csökkenést és 8‑szoros teljesítménynövekedést érhet el tesztjeikben, anélkül, hogy a pontosság csökkenne. A demonstrációk Gemma és Mistral nyílt forrású modellekre kerültek, ahol a TurboQuant 3 bites kvantálással csökkentette a cache méretét, miközben az Nvidia H100 GPU‑kon 4 bites verziójával 8‑szoros gyorsulást produkált a 32 bites referenciahöz képest.

Miért fontos ez? Az LLM-ek memóriája a kulcs‑érték cache‑ben tárolódik, amely a modell „digitális jegyzetfüzetét” jelenti. A nagy dimenziós vektorok, amelyek akár több ezer embeddinget is tartalmazhatnak, jelentős memóriát igényelnek, és a számítási sebességet is korlátozzák. A TurboQuant célja, hogy ezen cache‑et tömörítve csökkentse a memóriaigényt, miközben a modell gyorsabbá válik, így a mobil eszközökön is hatékonyabb lehet a futtatás.

Az algoritmus két lépésben működik. Először a PolarQuant konverziót alkalmazza, amely a vektorokat szögekre és sugárra bontja a Cartesian térben, így a „polar shorthand” formátumban tárolja őket. Ez a lépés jelentősen csökkenti a tárolási területet. Másodikként a Quantized Johnson‑Lindenstrauss (QJL) hibajavító réteget alkalmazza, amely egyetlen bitet (±1) használ a vektorok kvantálásához, miközben megőrzi a fontos szövegösszefüggéseket. Ezzel a kombinációval a TurboQuant képes a cache 3 bites kvantálására anélkül, hogy a downstream teljesítmény romlana.

A Google szerint a TurboQuant bevezetése csökkentheti a futtatási költségeket és a memóriaköltségeket, de a felszabaduló erőforrásokat akár komplexebb modellek futtatására is felhasználhatják. A mobil AI területén ez különösen előnyös lehet, mivel a készülékek korlátozott memóriájával is képesek lehetnek magas színvonalú eredményeket produkálni anélkül, hogy a felhasználói adatot a felhőbe kellene küldeni.

Jelenleg a TurboQuant csak a kutatási szakaszban van, de a Google azt állítja, hogy a meglévő modellekre is alkalmazható, anélkül, hogy újra kellene tanítani őket. A következő hónapokban várható a pre‑print tanulmány publikálása, amely részletesen bemutatja a technikai részleteket. A közösség és a fejlesztők figyelni fogják, hogy mikor kerül sor a gyakorlatba történő implementálásra, és milyen hatással lesz a modellek költség- és teljesítményprofiljára.

tetszett a cikk? oszd meg →

Megosztás