A Zhipu AI GLM-5V-Turbo 200 000 tokenes kontextusablakot kezel
A Zhipu AI szerint a GLM-5V-Turbo modell vezető eredményeket ért el a multimodális kódolás és GUI ügynök feladatokban.

Zhipu AI bemutatottja GLM-5V-Turbo modelljét, amely 200 000 tokenes kontextusablakot és 128 000 tokenes maximum kimenetet kínál. A multimodális rendszer képes képek, videó és szöveg alapján kódot generálni, így a design mockupokból közvetlenül futtatható front‑end projekteket hoz létre. A Zhipu AI szerint a modell vezető eredményeket ért el a multimodális kódolás és GUI ügynök feladatokban, miközben a tisztán szövegalapú kódolásban is megőrzi teljesítményét.
A GLM-5V-Turbo célja a vizuális megértés és a kódgenerálás közötti szakadék áthidalása. A startup a modellt a „megérteni a környezetet → akciótervezés → feladatvégrehajtás” teljes körforgalmi agent munkafolyamatra építette. A kép- és szövegfeldolgozás egységesen történik az új CogViT vizuális kóder segítségével, ami a betanítás elejétől kezdve integrálja a képi információkat.
Technikailag a modell több tokent előrejelz egy lépésben, ami gyorsabb kimenetet tesz lehetővé. A reinforcement learning több mint 30 feladaton – STEM, grounding, videó, GUI és kódolási agent feladatokon – finomhangolt, hogy erősebb érzékelést, érvelést és agenti végrehajtást érjen el. A multimodális eszköztár box rajzolást, képernyőképek készítését és weboldal olvasást is tartalmaz, így a percepció‑tervezés‑végrehajtás ciklus zökkenőmentesen működik.
Versenyképes eredményeket mutat a benchmarkokon: a GLM-5V-Turbo vezet a design‑to‑code, vizuális kódgenerálás és multimodális keresés szempontjából, valamint erős helyezést ér el az AndroidWorld és WebVoyager GUI‑agent teszteken. A text‑only kódolásban sem veszíti el teljesítményét, és a CLIPBench, ClawEval, ZClawBench vizsgálatokban is kiemelkedő.
Jelenleg csak API formájában érhető el, 1,20 USD/millió bemeneti token és 4 USD/millió kimeneti token áron. A Zhipu AI még nem nyújtott nyílt modell súlyokat. A következő lépés: a model integrálása a Claude Code és OpenClaw agentekbe, valamint a vizuális interakciók további finomhangolása a valós idejű fejlesztési környezetekben.