AI ügynök publikált iOS appot az Apple Store-ba — új értékelési módszerrel tesztelve
A hagyományos teljesítménytesztek gyakran torzítják az AI valós teljesítményét, ezért a CRUX (Collaborative Research for Updating AI eXpectations) projekt új, nyílt világú értékeléseket vezet be.

Egy mesterséges intelligencia ügynök sikeresen fejlesztett és publikált egy egyszerű iOS alkalmazást az Apple App Store-ba, mindössze egyetlen elkerülhető manuális beavatkozással — derül ki az arXiv-on előzetes formában megjelent tanulmányból.
A CRUX projekt keretében végzett kutatás során a kutatók megállapították, hogy a hagyományos teljesítménytesztek gyakran nem képesek pontosan mérni az AI rendszerek képességeit.
A kutatók szerint a teljesítményteszt-alapú értékelések túlértékelhetik és alábecsülhetik az AI tényleges képességeit. Ennek oka, hogy ezek a tesztek olyan feladatokat részesítenek előnyben, amelyek pontosan specifikálhatók, automatikusan osztályozhatók, könnyen optimalizálhatók, alacsony költségvetéssel és rövid időhorizonton belül futtathatók.
A valóság tükröt tart az AI-nak
A nyílt világú értékelések ezzel szemben a valós életben előforduló, „rendetlen” feladatokra fókuszálnak. Ezeket kis mintákon, minőségi elemzéssel értékelik, nem pedig nagyszabású automatizálással, így pontosabb képet adhatnak az AI rendszerek határképességeiről.
A CRUX projekt új irányt mutat
Az iOS alkalmazás publikálása a CRUX első ilyen jellegű tesztje volt, amely ígéretes eredményeket hozott. A projekt célja, hogy a jövőben rendszeresen végezzen hasonló, valós kihívásokon alapuló értékeléseket, ezzel kiegészítve a hagyományos benchmarkokat.
A tanulmány az arXiv:2605.20520v1 azonosító alatt érhető el, és a CRUX projekt keretében további hasonló tesztek várhatók a 2024. év folyamán.