A Moonshot Kimi K2.6 modellje 68,6%-os győzelmi arányt ért el a Gemini 3.1 Pro ellen
A Kimi K2.6 modell fejlesztése során a csapat a 1 billió paraméteres MoE architektúrára és 32 milliárd aktív paraméterre összpontosított, ami a frontend tervezési feladatokban elért kiemelkedő eredmények mögött állhat.

A Moonshot bemutatta a Kimi K2.6-ot, nyílt forráskódú modelljének legújabb frissítését, amely 1 billió paraméteres MoE (Mixture of Experts) architektúrával és 32 milliárd aktív paraméterrel működik — írja a Latent Space. A modell 384 szakértővel (8 útválasztott + 1 megosztott) és 256K kontextusablakkal rendelkezik, natív multimodalitással és INT4 kvantálással.
A Kimi K2.6 jelentős előrelépést mutat a hosszú távú végrehajtási képességek terén. A Moonshot szerint a modell több mint 4000 eszközhívást képes kezelni, 12 óránál hosszabb folyamatos futásokat végez, és akár 300 párhuzamos alügynököt is irányít. Emellett bevezették a „Claw Groups” funkciót a többügynökös és emberi koordináció támogatására.
A modell már a bevezetés napján támogatást kapott olyan népszerű platformokon, mint a vLLM, OpenRouter, Cloudflare Workers AI, Baseten, MLX, Hermes Agent és OpenCode. A közösség gyorsan felismerte a K2.6 potenciálját, mint a Claude és GPT modellek életképes alternatíváját kódolási és infrastruktúra-munkákhoz. Beszámolók szerint a modell képes volt egy 5 napos autonóm infrastruktúra-ügynök futtatására, kernel újraírására és egy Zig inferencia motor működtetésére, amely 20%-kal felülmúlta a LM Studio TPS (tranzakció másodpercenként) teljesítményét.
A Moonshot a Kimi K2.6-tal számos teljesítményteszten állítja, hogy nyílt forráskódú SOTA (State of the Art) eredményeket ért el, többek között 54.0-t HLE-n eszközökkel, 58.6-ot SWE-Bench Pro-n, 76.7-et SWE-bench Multilingual-en, 83.2-t BrowseComp-on, 50.0-t Toolathlon-on, 86.7-et CharXiv-en Pythonnal, és 93.2-t Math Vision-ön Pythonnal.