Az IBM Research új Open Agent Leaderboardja az AI-ügynökök valós költségét is méri
A ranglista nemcsak a modellek teljesítményét, hanem a teljes ügynökrendszerek minőségét és futtatási költségét is figyelembe veszi, ezzel segítve a valós telepítési döntéseket.

Nyílt értékelési keretrendszert hozott létre az IBM Research, hogy felmérje az általános célú AI-ügynökök képességeit. Az Open Agent Leaderboard május 18-án indult, és a modellek helyett a teljes ügynökrendszereket hasonlítja össze — írja a Hugging Face.
Az IBM szerint egy ügynök telepítésekor nem csak a modellt választjuk ki, hanem egy teljes rendszert, amely magában foglalja az eszközöket, a tervezési módszert, az emlékezetet és a hibakezelést is. Ezek bármelyikének változtatása drámai hatással lehet a teljesítményre és a költségekre.
A gépi intelligencia új mérföldkövei
A ranglista hat különböző, valósághű feladatot tesztel, amelyek a kódolástól és ügyfélszolgálattól a műszaki támogatásig és személyes asszisztenciáig terjednek. Ezek közé tartozik a SWE-Bench Verified valós hibák javítására, a BrowseComp+ komplex webes kutatásokra, valamint a tau2-Bench sorozat ügyfélszolgálati és műszaki támogatási feladatokra.
Az első tanulságok szerint az általános célú ügynökök már most versenyképesek a speciális rendszerekkel, sőt, számos esetben felülmúlják azokat. A kutatók meglepetésére a teljesítményteszt-specifikus finomhangolás nélküli ügynökök is felvették a versenyt a kifejezetten azokra a feladatokra épített rendszerekkel.
Új dimenziók a gépi tanulásban
A modellválasztás továbbra is a domináns tényező, de az ügynökarchitektúra, például az eszközök szűrése, már most is jelentős különbséget eredményez a teljesítményben. Az Open Agent Leaderboard, az Exgentic keretrendszer és a teljes módszertant leíró tanulmány mind nyilvánosan elérhető az IBM Research platformján, 2024. január elsejétől.