Frissítve: 15 perce·Ma: 49
Modellek & LLM
AI által generált szöveg

A Z.AI GLM-5.1 modellje 8 órán át képes önállóan kódolni

A kínai cég új modellje a SWE-Bench Verified teszten 72%-ot ért el, megelőzve több amerikai versenytársat is.

A Z.AI GLM-5.1 modellje 8 órán át képes önállóan kódolni
Fotó: Possessed Photography / Unsplash
Forrás: MarkTechPostSzerző: AI Forradalom szerk.
Megosztás

Nyolc órán át képes önállóan kódolni a Z.AI új, GLM-5.1 modellje, amely a GLM modellcsalád legújabb zászlóshajója. Ez a képesség messze felülmúlja a korábbi modellek teljesítményét, és a MarkTechPost szerint jelentősen átalakíthatja az autonóm ügynökök fejlesztését.

A GLM-5.1-et kifejezetten ügynökalapú feladatokra optimalizálták, szemben a hagyományos, egyszeri teljesítményteszt-tesztekre hangolt modellekkel. Építésénél a DSA és MoE architektúrát (Mixture of Experts) ötvözték, ami jelentősen csökkenti a betanítási és következtetési költségeket. A MoE modellek az összes paraméternek csak egy részét aktiválják egy-egy futtatás során, így hatékonyabbak lehetnek a hasonló méretű sűrű modelleknél.

Hosszú távú feladatok kezelése

A GLM-5.1 egyik legfontosabb fejlesztése az aszinkron megerősítéses tanulási infrastruktúra. Ez leválasztja a generálást a betanításról, ezzel drasztikusan javítva a betanítás utáni hatékonyságot. Az új aszinkron ügynök RL algoritmusok jobb RL minőséget biztosítanak, lehetővé téve a modell számára, hogy hatékonyabban tanuljon komplex, hosszú távú interakciókból.

Korábbi LLM-ek, köztük a GLM-5 is, hajlamosak voltak hamar kifulladni, kezdeti gyors előrelépések után stagnáltak. A GLM-5.1 ezzel szemben a hosszabb távú feladatok során is hatékony marad, képes ambiciózus problémákat jobb ítélőképességgel kezelni. Képes lebontani a komplex feladatokat, kísérleteket futtatni, eredményeket értelmezni és pontosan azonosítani az akadályokat, akár több száz iteráción és több ezer eszközhíváson keresztül.

A SWE-Bench Pro teljesítményteszten a GLM-5.1 58,4 pontot ért el, ezzel felülmúlta a GPT-5.4, a Claude Opus 4.6 és a Gemini 3.1 Pro modelleket, új iparági rekordot állítva fel. Az ügynökalapú és eszközhasználati benchmarkokon is jelentős javulást mutatott: CyberGym-en 68,7 pontot ért el, szemben a GLM-5 48,3 pontjával. A modell általános képességei és kódolási teljesítménye a Claude Opus 4.6 szintjével egyezik meg.

A GLM-5.1 akár 8 órán keresztül is képes autonóm módon dolgozni egyetlen feladaton, a tervezéstől a végrehajtáson át a tesztelésig, hibajavításig és szállításig. Ez a képesség alapjaiban változtatja meg az autonóm ügynököket építő fejlesztők lehetőségeit, hiszen a modell képes egy teljes „kísérlet–elemzés–optimalizálás” ciklust önállóan futtatni. Konkrét demonstrációk szerint a GLM-5.1 8 óra alatt képes egy teljes Linux asztali környezetet felépíteni a nulláról, vagy 178 fordulót végrehajtani automatikusan.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom