A TurboQuant Pythonban: 5x tömörítés 99,5%-os minőséggel
A TheTom által készített turboquant-py implementáció 5x tömörítést ért el

A TheTom által készített turboquant-py Python implementáció már 5‑szoros tömörítést tesz lehetővé, miközben a minőség 99,5 %-os marad. A kódrészlet a GitHubon érhető el, és a dokumentáció szerint a TurboQuant és a QJL vektor‑tömörítés algoritmusait használja.
Ez a fejlesztés jelentős lépés a mélytanulási modellek méretének csökkentésében. A 5× tömörítés azt jelenti, hogy egy 4 GB méretű Qwen3‑1.7B modell KV-tensorja most már körülbelül 800 MB helyre kerül, anélkül, hogy a predikciós pontosság jelentős romlását tapasztalnánk.
A turboquant-py a TurboQuant elméleti alapjaira épül, amely a kódszámítási költség és a torzítás közötti optimális egyensúlyt célozza. A Python‑ban írt implementáció a C++‑al szemben könnyebb integrációt tesz lehetővé, miközben a QJL algoritmus révén a szűkítési arányt finomhangolható.
A GitHub repóban található demo szkriptet a "benchmarks/demo.py" fájl futtatásával lehet futtatni. A "validate_real_model.py" teszt a Qwen3‑1.7B modell KV‑tensorszámítását ellenőrzi, és kimutatta a 99,5 %-os minőség megtartását.
A jövőben a közösség várhatóan további portokat hoz létre, például a llama.cpp‑be való integrációt, ahol a turbo3 és turbo4 kv‑cache típusok 4,9× és 3,8× tömörítést kínálnak. A kód nyílt forráskódú, ezért a fejlesztők szabadon módosíthatják és bővíthetik a funkcionalitást.