Dinamikus ranglistán méri az AI-modelleket az Agent Island — elkerüli a teljesítményteszt-telítettséget

Új, dinamikus értékelési környezetet mutatott be az Agent Island néven egy kutatás, amely a nyelvi modellek valós képességeit méri többügynökös játékokban — derül ki az arXiv-on előzetesen közzétett tanulmányból.

A rendszer célja, hogy kiküszöbölje a statikus teljesítménytesztek két fő problémáját: a telítettséget és az adatszennyeződést. Ezek a tényezők torzítják a modellek teljesítményét, mivel a fejlesztők gyakran optimalizálják modelljeiket a már ismert tesztekre, vagy a betanítási adatokba véletlenül bekerülnek a teljesítményteszt feladatok.

A szimulációs aréna

Az Agent Island egy többjátékos szimulációs környezet, ahol a nyelvi modellek ügynökként versenyeznek együttműködési, konfliktuskezelési és meggyőzési feladatokban. Mivel a modellek adaptív ügynökök ellen játszanak, nem pedig fix feladatokat oldanak meg, a teljesítményteszt folyamatosan változik, így az új modellek mindig felülmúlhatják a jelenlegi vezetőt.

A modellek mérlegén

A játékosok rangsorolását egy Bayes-féle Plackett-Luce modell segítségével végzik, amely számszerűsíti a játékosok képességeiben rejlő bizonytalanságot. Ez a módszer pontosabb képet ad a modellek relatív erejéről, mint a hagyományos pontszámítási rendszerek.

Egy 999 játékból álló sorozatban, amelyben 49 különböző modell vett részt, az openai/gpt-5.5 dominálta a mezőnyt. A modell 5.64-es átlagos képességgel végzett, míg a második helyezett openai/gpt-5.2 3.10-es, a harmadik openai/gpt-5.3-codex pedig 2.86-os átlagos képességet mutatott a kutatás szerint.

Az Agent Island környezetben gyűjtött játéknaplókat nyilvánosan elérhetővé teszik a kutatók, ezzel is segítve a további fejlesztéseket és elemzéseket a 2024. évben.