ÉlőUtoljára: 2 perceMa: 8
Modellek & LLMfrissítve: 23:05

Az APEX MoE kvantált modellek 33%-kal gyorsabb inference-el rendelkeznek a TurboQuant-nak köszönhetően

A TurboQuant-nak köszönhetően a prompt feldolgozás 14%-kal gyorsabb lett.

Az APEX MoE kvantált modellek 33%-kal gyorsabb inference-el rendelkeznek a TurboQuant-nak köszönhetően
Fotó: Fotó: Harrison Broadbent / Unsplash
forrás: Reddit LocalLLaMA·AI Forradalom szerk.·
Megosztás

Apex MoE kvantált modellek 33%-kal gyorsabb inferenciát értek el, a TurboQuant köszönhetően 14%-kal gyorsabb lett a prompt feldolgozása.

A TurboQuant egy 1‑bit Quantized Johnson-Lindenstrauss (QJL) transzformációt alkalmaz a KV cache és a vektor keresés tömörítésére. A QJL csökkenti a hibaszámokat egyszerű előjelbitek (+1 vagy -1) formájában, így a figyelem pontszámítása statisztikailag megegyezik a magas pontosságú eredménnyel.

Az Apex MoE modelljein alkalmazva a TurboQuant 33%-kal gyorsabb inferenciát tesz lehetővé. A prompt feldolgozásban a 14%-os sebességnövekedés a QJL alapú kvantálás hatékonyságát mutatja.

Az 3‑bit kulcs, 2‑bit érték kombinációja a TurboQuantban a kvantálás szűrőpontja. A 4‑bit értékek használata javítja a cos_sim értéket 0,997-re, miközben a 2‑bit értékek csak 0,94-re csökkentik azt.

Mi a következő lépés? A TurboQuant egyesített Triton kerneljei a kódon belül már elérhetőek, de a hibrid dekódolás még nem használja őket teljesen.

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom