Az AI ügynökök valós képességeit a SWE-bench Verified méri a legjobban
A hagyományos perplexitás-pontszámok és MMLU ranglisták kevés információt adnak arról, hogy egy modell képes-e valós weboldalon navigálni vagy GitHub-problémát megoldani.

Az AI ügynökök kutatói szerint az ügynökök valós képességeinek értékeléséhez új mérési módszerekre van szükség, mivel a hagyományos teljesítménytesztek, mint a perplexitás-pontszámok vagy a MMLU, nem elegendőek — írja a MarkTechPost.
Fontos, hogy az ügynök teljesítményteszt-eredményei nagymértékben függnek a „scaffoldtól”, azaz a kontextustól, amelyben létrejöttek. A modell, a prompt kialakítása, az eszközhozzáférés, az újrapróbálkozási keret, a végrehajtási környezet és az értékelő verziója is jelentősen befolyásolhatja a jelentett pontszámokat. Ezért egyetlen számot sem szabad elszigetelten értelmezni, a keletkezés kontextusa legalább annyira számít, mint maga az eredmény.
A SWE-bench Verified jelentősége
A SWE-bench Verified az egyik legmegbízhatóbb teljesítményteszt a LLM-ek és AI ügynökök valós szoftverfejlesztési képességeinek nyomon követésére. A teljesítményteszt 2294 GitHub-problémából merít, 12 népszerű Python-tárolóból, és a modelleknek működő javítást kell produkálniuk, nem csupán a javítás leírását. A Verified alcsoport 500 emberi validált, kiváló minőségű mintát tartalmaz, amelyet az OpenAI és professzionális szoftverfejlesztők együttműködésével fejlesztettek ki.
A teljesítményteszt fejlődése figyelemre méltó: 2023-ban a Claude 2 mindössze 1,96%-os arányban tudta megoldani a problémákat. Ezzel szemben a vezető modellek 2025 végére és 2026 elejére átlépték a 80%-os tartományt a SWE-bench Verified teszten. Fontos azonban megjegyezni, hogy az eredmények a scaffoldtól, az erőfeszítés beállításától, az eszközkonfigurációtól és az értékelő protokolljától függően változhatnak, ezért nem szabad közvetlenül összehasonlítani a különböző gyártók eredményeit ezen különbségek figyelembevétele nélkül.
A magas SWE-bench pontszámok nem garantálnak általános célú ügynököt, hanem a szoftverjavítási feladatokban való erősséget jelzik. Ezért a teljesítménytesztet más értékelésekkel együtt kell használni, hogy teljesebb képet kapjunk az AI ügynökök képességeiről.