Dinamikus ranglistán méri az AI-modelleket az Agent Island — elkerüli a teljesítményteszt-telítettséget
A hagyományos, statikus teljesítménytesztek telítődése és szennyeződése miatt nehéz nyomon követni az AI-modellek fejlődését, ezen a problémán segíthet az Agent Island.

Új, dinamikus értékelési környezetet mutatott be az Agent Island néven egy kutatás, amely a nyelvi modellek valós képességeit méri többügynökös játékokban — derül ki az arXiv-on előzetesen közzétett tanulmányból.
A rendszer célja, hogy kiküszöbölje a statikus teljesítménytesztek két fő problémáját: a telítettséget és az adatszennyeződést. Ezek a tényezők torzítják a modellek teljesítményét, mivel a fejlesztők gyakran optimalizálják modelljeiket a már ismert tesztekre, vagy a betanítási adatokba véletlenül bekerülnek a teljesítményteszt feladatok.
A szimulációs aréna
Az Agent Island egy többjátékos szimulációs környezet, ahol a nyelvi modellek ügynökként versenyeznek együttműködési, konfliktuskezelési és meggyőzési feladatokban. Mivel a modellek adaptív ügynökök ellen játszanak, nem pedig fix feladatokat oldanak meg, a teljesítményteszt folyamatosan változik, így az új modellek mindig felülmúlhatják a jelenlegi vezetőt.
A modellek mérlegén
A játékosok rangsorolását egy Bayes-féle Plackett-Luce modell segítségével végzik, amely számszerűsíti a játékosok képességeiben rejlő bizonytalanságot. Ez a módszer pontosabb képet ad a modellek relatív erejéről, mint a hagyományos pontszámítási rendszerek.
Egy 999 játékból álló sorozatban, amelyben 49 különböző modell vett részt, az openai/gpt-5.5 dominálta a mezőnyt. A modell 5.64-es átlagos képességgel végzett, míg a második helyezett openai/gpt-5.2 3.10-es, a harmadik openai/gpt-5.3-codex pedig 2.86-os átlagos képességet mutatott a kutatás szerint.
Az Agent Island környezetben gyűjtött játéknaplókat nyilvánosan elérhetővé teszik a kutatók, ezzel is segítve a további fejlesztéseket és elemzéseket a 2024. évben.