Alkalmazások2026. márc. 31.frissítve: 02:05

A TurboQuant Pythonban: 5x tömörítés 99,5%-os minőséggel

A TheTom által készített turboquant-py implementáció 5x tömörítést ért el

Fotó: Nangialai Stoman / Unsplash

forrás: Reddit ML·AI Forradalom szerk.·2026. március 31.

Megosztás

A TheTom által készített turboquant-py Python implementáció már 5‑szoros tömörítést tesz lehetővé, miközben a minőség 99,5 %-os marad. A kódrészlet a GitHubon érhető el, és a dokumentáció szerint a TurboQuant és a QJL vektor‑tömörítés algoritmusait használja.

Ez a fejlesztés jelentős lépés a mélytanulási modellek méretének csökkentésében. A 5× tömörítés azt jelenti, hogy egy 4 GB méretű Qwen3‑1.7B modell KV-tensorja most már körülbelül 800 MB helyre kerül, anélkül, hogy a predikciós pontosság jelentős romlását tapasztalnánk.

A turboquant-py a TurboQuant elméleti alapjaira épül, amely a kódszámítási költség és a torzítás közötti optimális egyensúlyt célozza. A Python‑ban írt implementáció a C++‑al szemben könnyebb integrációt tesz lehetővé, miközben a QJL algoritmus révén a szűkítési arányt finomhangolható.

A GitHub repóban található demo szkriptet a "benchmarks/demo.py" fájl futtatásával lehet futtatni. A "validate_real_model.py" teszt a Qwen3‑1.7B modell KV‑tensorszámítását ellenőrzi, és kimutatta a 99,5 %-os minőség megtartását.

A jövőben a közösség várhatóan további portokat hoz létre, például a llama.cpp‑be való integrációt, ahol a turbo3 és turbo4 kv‑cache típusok 4,9× és 3,8× tömörítést kínálnak. A kód nyílt forráskódú, ezért a fejlesztők szabadon módosíthatják és bővíthetik a funkcionalitást.

tetszett a cikk? oszd meg →

Megosztás