Kutatás2026. máj. 22.frissítve: 11:10

AI ügynök publikált iOS appot az Apple Store-ba — új értékelési módszerrel tesztelve

A hagyományos teljesítménytesztek gyakran torzítják az AI valós teljesítményét, ezért a CRUX (Collaborative Research for Updating AI eXpectations) projekt új, nyílt világú értékeléseket vezet be.

Fotó: Vitaly Gariev / Unsplash

forrás: ArXiv AI·AI Forradalom szerk.·2026. május 22.

Megosztás

Egy mesterséges intelligencia ügynök sikeresen fejlesztett és publikált egy egyszerű iOS alkalmazást az Apple App Store-ba, mindössze egyetlen elkerülhető manuális beavatkozással — derül ki az arXiv-on előzetes formában megjelent tanulmányból.

A CRUX projekt keretében végzett kutatás során a kutatók megállapították, hogy a hagyományos teljesítménytesztek gyakran nem képesek pontosan mérni az AI rendszerek képességeit.

A kutatók szerint a teljesítményteszt-alapú értékelések túlértékelhetik és alábecsülhetik az AI tényleges képességeit. Ennek oka, hogy ezek a tesztek olyan feladatokat részesítenek előnyben, amelyek pontosan specifikálhatók, automatikusan osztályozhatók, könnyen optimalizálhatók, alacsony költségvetéssel és rövid időhorizonton belül futtathatók.

A valóság tükröt tart az AI-nak

A nyílt világú értékelések ezzel szemben a valós életben előforduló, „rendetlen” feladatokra fókuszálnak. Ezeket kis mintákon, minőségi elemzéssel értékelik, nem pedig nagyszabású automatizálással, így pontosabb képet adhatnak az AI rendszerek határképességeiről.

A CRUX projekt új irányt mutat

Az iOS alkalmazás publikálása a CRUX első ilyen jellegű tesztje volt, amely ígéretes eredményeket hozott. A projekt célja, hogy a jövőben rendszeresen végezzen hasonló, valós kihívásokon alapuló értékeléseket, ezzel kiegészítve a hagyományos benchmarkokat.

A tanulmány az arXiv:2605.20520v1 azonosító alatt érhető el, és a CRUX projekt keretében további hasonló tesztek várhatók a 2024. év folyamán.

tetszett a cikk? oszd meg →

Megosztás