ÉlőUtoljára: 1 perceMa: 11
Modellek & LLMfrissítve: 09:05

A Google TurboQuant algoritmusa 6-szor csökkenti az AI memóriahasználatot

A Google szerint a TurboQuant 8-szoros teljesítménynövekedést és 6-szoros memóriahasználat-csökkenést ért el bizonyos tesztekben.

A Google TurboQuant algoritmusa 6-szor csökkenti az AI memóriahasználatot
Fotó: Akshat Sharma / Unsplash
forrás: Ars Technica·AI Forradalom szerk.·
Megosztás

A Google kutatócsoportja a TurboQuant nevű új tömörítési algoritmussal jelentette be, hogy a nagy nyelvi modellek (LLM) kulcs‑érték cache‑je 6‑szoros memóriahasználat‑csökkenést és 8‑szoros teljesítménynövekedést érhet el tesztjeikben, anélkül, hogy a pontosság csökkenne. A demonstrációk Gemma és Mistral nyílt forrású modellekre kerültek, ahol a TurboQuant 3 bites kvantálással csökkentette a cache méretét, miközben a Nvidia H100 GPU‑kon 4 bites verziójával 8‑szoros gyorsulást produkált a 32 bites referenciahöz képest.

Miért fontos ez? Az LLM-ek memóriája a kulcs‑érték cache‑ben tárolódik, amely a modell „digitális jegyzetfüzetét” jelenti. A nagy dimenziós vektorok, amelyek akár több ezer embeddinget is tartalmazhatnak, jelentős memóriát igényelnek, és a számítási sebességet is korlátozzák. A TurboQuant célja, hogy ezen cache‑et tömörítve csökkentse a memóriaigényt, miközben a modell gyorsabbá válik, így a mobil eszközökön is hatékonyabb lehet a futtatás.

Az algoritmus két lépésben működik. Először a PolarQuant konverziót alkalmazza, amely a vektorokat szögekre és sugárra bontja a Cartesian térben, így a „polar shorthand” formátumban tárolja őket. Ez a lépés jelentősen csökkenti a tárolási területet. Másodikként a Quantized Johnson‑Lindenstrauss (QJL) hibajavító réteget alkalmazza, amely egyetlen bitet (±1) használ a vektorok kvantálásához, miközben megőrzi a fontos szövegösszefüggéseket. Ezzel a kombinációval a TurboQuant képes a cache 3 bites kvantálására anélkül, hogy a downstream teljesítmény romlana.

A Google szerint a TurboQuant bevezetése csökkentheti a futtatási költségeket és a memóriaköltségeket, de a felszabaduló erőforrásokat akár komplexebb modellek futtatására is felhasználhatják. A mobil AI területén ez különösen előnyös lehet, mivel a készülékek korlátozott memóriájával is képesek lehetnek magas színvonalú eredményeket produkálni anélkül, hogy a felhasználói adatot a felhőbe kellene küldeni.

Jelenleg a TurboQuant csak a kutatási szakaszban van, de a Google azt állítja, hogy a meglévő modellekre is alkalmazható, anélkül, hogy újra kellene tanítani őket. A következő hónapokban várható a pre‑print tanulmány publikálása, amely részletesen bemutatja a technikai részleteket. A közösség és a fejlesztők figyelni fogják, hogy mikor kerül sor a gyakorlatba történő implementálásra, és milyen hatással lesz a modellek költség- és teljesítményprofiljára.

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom