Modellek & LLM2026. ápr. 1.frissítve: 23:05

Az APEX MoE kvantált modellek 33%-kal gyorsabb inference-el rendelkeznek a TurboQuant-nak köszönhetően

A TurboQuant-nak köszönhetően a prompt feldolgozás 14%-kal gyorsabb lett.

Fotó: Fotó: Harrison Broadbent / Unsplash

forrás: Reddit LocalLLaMA·AI Forradalom szerk.·2026. április 1.

Megosztás

Apex MoE kvantált modellek 33%-kal gyorsabb inferenciát értek el, a TurboQuant köszönhetően 14%-kal gyorsabb lett a prompt feldolgozása.

A TurboQuant egy 1‑bit Quantized Johnson-Lindenstrauss (QJL) transzformációt alkalmaz a KV cache és a vektor keresés tömörítésére. A QJL csökkenti a hibaszámokat egyszerű előjelbitek (+1 vagy -1) formájában, így a figyelem pontszámítása statisztikailag megegyezik a magas pontosságú eredménnyel.

Az Apex MoE modelljein alkalmazva a TurboQuant 33%-kal gyorsabb inferenciát tesz lehetővé. A prompt feldolgozásban a 14%-os sebességnövekedés a QJL alapú kvantálás hatékonyságát mutatja.

Az 3‑bit kulcs, 2‑bit érték kombinációja a TurboQuantban a kvantálás szűrőpontja. A 4‑bit értékek használata javítja a cos_sim értéket 0,997-re, miközben a 2‑bit értékek csak 0,94-re csökkentik azt.

Mi a következő lépés? A TurboQuant egyesített Triton kerneljei a kódon belül már elérhetőek, de a hibrid dekódolás még nem használja őket teljesen.

tetszett a cikk? oszd meg →

Megosztás