Az APEX MoE kvantált modellek 33%-kal gyorsabb inference-el rendelkeznek a TurboQuant-nak köszönhetően
A TurboQuant-nak köszönhetően a prompt feldolgozás 14%-kal gyorsabb lett.

Apex MoE kvantált modellek 33%-kal gyorsabb inferenciát értek el, a TurboQuant köszönhetően 14%-kal gyorsabb lett a prompt feldolgozása.
A TurboQuant egy 1‑bit Quantized Johnson-Lindenstrauss (QJL) transzformációt alkalmaz a KV cache és a vektor keresés tömörítésére. A QJL csökkenti a hibaszámokat egyszerű előjelbitek (+1 vagy -1) formájában, így a figyelem pontszámítása statisztikailag megegyezik a magas pontosságú eredménnyel.
Az Apex MoE modelljein alkalmazva a TurboQuant 33%-kal gyorsabb inferenciát tesz lehetővé. A prompt feldolgozásban a 14%-os sebességnövekedés a QJL alapú kvantálás hatékonyságát mutatja.
Az 3‑bit kulcs, 2‑bit érték kombinációja a TurboQuantban a kvantálás szűrőpontja. A 4‑bit értékek használata javítja a cos_sim értéket 0,997-re, miközben a 2‑bit értékek csak 0,94-re csökkentik azt.
Mi a következő lépés? A TurboQuant egyesített Triton kerneljei a kódon belül már elérhetőek, de a hibrid dekódolás még nem használja őket teljesen.