Kutatás2026. máj. 18.frissítve: 15:10

Az IBM Research új Open Agent Leaderboardja az AI-ügynökök valós költségét is méri

A ranglista nemcsak a modellek teljesítményét, hanem a teljes ügynökrendszerek minőségét és futtatási költségét is figyelembe veszi, ezzel segítve a valós telepítési döntéseket.

Fotó: Fotó: Logan Gutierrez / Unsplash

forrás: Hugging Face·AI Forradalom szerk.·2026. május 18.

Megosztás

Nyílt értékelési keretrendszert hozott létre az IBM Research, hogy felmérje az általános célú AI-ügynökök képességeit. Az Open Agent Leaderboard május 18-án indult, és a modellek helyett a teljes ügynökrendszereket hasonlítja össze — írja a Hugging Face.

Az IBM szerint egy ügynök telepítésekor nem csak a modellt választjuk ki, hanem egy teljes rendszert, amely magában foglalja az eszközöket, a tervezési módszert, az emlékezetet és a hibakezelést is. Ezek bármelyikének változtatása drámai hatással lehet a teljesítményre és a költségekre.

A gépi intelligencia új mérföldkövei

A ranglista hat különböző, valósághű feladatot tesztel, amelyek a kódolástól és ügyfélszolgálattól a műszaki támogatásig és személyes asszisztenciáig terjednek. Ezek közé tartozik a SWE-Bench Verified valós hibák javítására, a BrowseComp+ komplex webes kutatásokra, valamint a tau2-Bench sorozat ügyfélszolgálati és műszaki támogatási feladatokra.

Az első tanulságok szerint az általános célú ügynökök már most versenyképesek a speciális rendszerekkel, sőt, számos esetben felülmúlják azokat. A kutatók meglepetésére a teljesítményteszt-specifikus finomhangolás nélküli ügynökök is felvették a versenyt a kifejezetten azokra a feladatokra épített rendszerekkel.

Új dimenziók a gépi tanulásban

A modellválasztás továbbra is a domináns tényező, de az ügynökarchitektúra, például az eszközök szűrése, már most is jelentős különbséget eredményez a teljesítményben. Az Open Agent Leaderboard, az Exgentic keretrendszer és a teljes módszertant leíró tanulmány mind nyilvánosan elérhető az IBM Research platformján, 2024. január elsejétől.

tetszett a cikk? oszd meg →

Megosztás