Frissítve: 15 perce·Ma: 49
Modellek & LLM
AI által generált szöveg

Az LLaMA aktivációs rotációval csökkenti a kvantálás hatását

A llama.cpp #21038 PR aktivációs rotációt vezet be a KV cache kvantálásához: a technikával 3 bitre csökkenthető a tárolás szinte nulla pontosságvesztéssel, ami hosszú kontextusú modellekben komoly memória-megtakarítást jelent.

Az LLaMA aktivációs rotációval csökkenti a kvantálás hatását
Fotó: Florian Olivo / Unsplash
Forrás: Reddit LocalLLaMASzerző: AI Forradalom szerk.
Megosztás

Ggerganov a llama.cpp kódbázisában egy új pull requesttel, #21038-el, bevezet egy aktivációs rotációs mechanizmust, amely jelentősen csökkenti a KV cache kvantálásának hatását. A PR szerint a technika lehetővé teszi a KV cache 3 bitekig történő kvantálását, szinte nulla pontosságvesztéssel, ami a Google Research TurboQuant algoritmusával egyben megjelenik a blogbejegyzésben.

Miért fontos ez? A hosszú kontextusú modellekben a KV cache mérete hatalmas, és a kvantálás költségei gyorsan emelkednek. A rotációval a kvantálás során keletkező hibák szétoszlanak, így a modell stabilabb marad, miközben a memóriaköltség lecsökken.

A technikai részletek a PR-ben találhatók: a bemeneti aktivációkat forgatják, majd kvantálják, ezáltal a kvantálási hibák egyenletesen terjednek el. A Google Research kutatása szerint ez a módszer akár 3 bites kvantálást is lehetővé tesz, anélkül, hogy jelentős pontosságvesztés történne.

Az iparágban ez új lehetőséget nyit a költséghatékony LLM telepítésekhez, különösen a valós idejű, hosszú kontextusú alkalmazásokban. A llama.cpp közössége most már kipróbálhatja ezt a megoldást, és mérheti a teljesítménybeli javulást.

Mi következik? A fejlesztőknek érdemes a PR-öt integrálniuk, és a kvantálási beállításokat finomhangolniuk a saját workloadjeikhez.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom