Az LLaMA aktivációs rotációval csökkenti a kvantálás hatását
A llama.cpp #21038 PR aktivációs rotációt vezet be a KV cache kvantálásához: a technikával 3 bitre csökkenthető a tárolás szinte nulla pontosságvesztéssel, ami hosszú kontextusú modellekben komoly memória-megtakarítást jelent.

Ggerganov a llama.cpp kódbázisában egy új pull requesttel, #21038-el, bevezet egy aktivációs rotációs mechanizmust, amely jelentősen csökkenti a KV cache kvantálásának hatását. A PR szerint a technika lehetővé teszi a KV cache 3 bitekig történő kvantálását, szinte nulla pontosságvesztéssel, ami a Google Research TurboQuant algoritmusával egyben megjelenik a blogbejegyzésben.
Miért fontos ez? A hosszú kontextusú modellekben a KV cache mérete hatalmas, és a kvantálás költségei gyorsan emelkednek. A rotációval a kvantálás során keletkező hibák szétoszlanak, így a modell stabilabb marad, miközben a memóriaköltség lecsökken.
A technikai részletek a PR-ben találhatók: a bemeneti aktivációkat forgatják, majd kvantálják, ezáltal a kvantálási hibák egyenletesen terjednek el. A Google Research kutatása szerint ez a módszer akár 3 bites kvantálást is lehetővé tesz, anélkül, hogy jelentős pontosságvesztés történne.
Az iparágban ez új lehetőséget nyit a költséghatékony LLM telepítésekhez, különösen a valós idejű, hosszú kontextusú alkalmazásokban. A llama.cpp közössége most már kipróbálhatja ezt a megoldást, és mérheti a teljesítménybeli javulást.
Mi következik? A fejlesztőknek érdemes a PR-öt integrálniuk, és a kvantálási beállításokat finomhangolniuk a saját workloadjeikhez.