Modellek & LLM2026. ápr. 3.frissítve: 10:45

Az LLaMA aktivációs rotációval csökkenti a kvantálás hatását

A llama.cpp #21038 PR aktivációs rotációt vezet be a KV cache kvantálásához: a technikával 3 bitre csökkenthető a tárolás szinte nulla pontosságvesztéssel, ami hosszú kontextusú modellekben komoly memória-megtakarítást jelent.

Fotó: Fotó: Florian Olivo / Unsplash

forrás: Reddit LocalLLaMA·AI Forradalom szerk.·2026. április 3.

Megosztás

Ggerganov a llama.cpp kódbázisában egy új pull requesttel, #21038-el, bevezet egy aktivációs rotációs mechanizmust, amely jelentősen csökkenti a KV cache kvantálásának hatását. A PR szerint a technika lehetővé teszi a KV cache 3 bitekig történő kvantálását, szinte nulla pontosságvesztéssel, ami a Google Research TurboQuant algoritmusával egyben megjelenik a blogbejegyzésben.

Miért fontos ez? A hosszú kontextusú modellekben a KV cache mérete hatalmas, és a kvantálás költségei gyorsan emelkednek. A rotációval a kvantálás során keletkező hibák szétoszlanak, így a modell stabilabb marad, miközben a memóriaköltség lecsökken.

A technikai részletek a PR-ben találhatók: a bemeneti aktivációkat forgatják, majd kvantálják, ezáltal a kvantálási hibák egyenletesen terjednek el. A Google Research kutatása szerint ez a módszer akár 3 bites kvantálást is lehetővé tesz, anélkül, hogy jelentős pontosságvesztés történne.

Az iparágban ez új lehetőséget nyit a költséghatékony LLM telepítésekhez, különösen a valós idejű, hosszú kontextusú alkalmazásokban. A llama.cpp közössége most már kipróbálhatja ezt a megoldást, és mérheti a teljesítménybeli javulást.

Mi következik? A fejlesztőknek érdemes a PR-öt integrálniuk, és a kvantálási beállításokat finomhangolniuk a saját workloadjeikhez.

tetszett a cikk? oszd meg →

Megosztás