Frissítve: 13 perce·Ma: 59
Modellek & LLM
AI által generált szöveg

Az APEX MoE kvantált modellek 33%-kal gyorsabb inference-el rendelkeznek a TurboQuant-nak köszönhetően

A TurboQuant-nak köszönhetően a prompt feldolgozás 14%-kal gyorsabb lett.

Az APEX MoE kvantált modellek 33%-kal gyorsabb inference-el rendelkeznek a TurboQuant-nak köszönhetően
Fotó: Harrison Broadbent / Unsplash
Forrás: Reddit LocalLLaMASzerző: AI Forradalom szerk.
Megosztás

Apex MoE kvantált modellek 33%-kal gyorsabb inferenciát értek el, a TurboQuant köszönhetően 14%-kal gyorsabb lett a prompt feldolgozása.

A TurboQuant egy 1‑bit Quantized Johnson-Lindenstrauss (QJL) transzformációt alkalmaz a KV cache és a vektor keresés tömörítésére. A QJL csökkenti a hibaszámokat egyszerű előjelbitek (+1 vagy -1) formájában, így a figyelem pontszámítása statisztikailag megegyezik a magas pontosságú eredménnyel.

Az Apex MoE modelljein alkalmazva a TurboQuant 33%-kal gyorsabb inferenciát tesz lehetővé. A prompt feldolgozásban a 14%-os sebességnövekedés a QJL alapú kvantálás hatékonyságát mutatja.

Az 3‑bit kulcs, 2‑bit érték kombinációja a TurboQuantban a kvantálás szűrőpontja. A 4‑bit értékek használata javítja a cos_sim értéket 0,997-re, miközben a 2‑bit értékek csak 0,94-re csökkentik azt.

Mi a következő lépés? A TurboQuant egyesített Triton kerneljei a kódon belül már elérhetőek, de a hibrid dekódolás még nem használja őket teljesen.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom