Frissítve: 58 perce·Ma: 6
Kutatás
AI által generált szöveg

AI ügynök publikált iOS appot az Apple Store-ba — új értékelési módszerrel tesztelve

A hagyományos teljesítménytesztek gyakran torzítják az AI valós teljesítményét, ezért a CRUX (Collaborative Research for Updating AI eXpectations) projekt új, nyílt világú értékeléseket vezet be.

AI ügynök publikált iOS appot az Apple Store-ba — új értékelési módszerrel tesztelve
Fotó: CDC / Unsplash
Forrás: ArXiv AISzerző: AI Forradalom szerk.
Megosztás

Egy mesterséges intelligencia ügynök sikeresen fejlesztett és publikált egy egyszerű iOS alkalmazást az Apple App Store-ba, mindössze egyetlen elkerülhető manuális beavatkozással — derül ki az arXiv-on előzetes formában megjelent tanulmányból.

A CRUX projekt keretében végzett kutatás során a kutatók megállapították, hogy a hagyományos teljesítménytesztek gyakran nem képesek pontosan mérni az AI rendszerek képességeit.

A kutatók szerint a teljesítményteszt-alapú értékelések túlértékelhetik és alábecsülhetik az AI tényleges képességeit. Ennek oka, hogy ezek a tesztek olyan feladatokat részesítenek előnyben, amelyek pontosan specifikálhatók, automatikusan osztályozhatók, könnyen optimalizálhatók, alacsony költségvetéssel és rövid időhorizonton belül futtathatók.

A valóság tükröt tart az AI-nak

A nyílt világú értékelések ezzel szemben a valós életben előforduló, „rendetlen” feladatokra fókuszálnak. Ezeket kis mintákon, minőségi elemzéssel értékelik, nem pedig nagyszabású automatizálással, így pontosabb képet adhatnak az AI rendszerek határképességeiről.

A CRUX projekt új irányt mutat

Az iOS alkalmazás publikálása a CRUX első ilyen jellegű tesztje volt, amely ígéretes eredményeket hozott. A projekt célja, hogy a jövőben rendszeresen végezzen hasonló, valós kihívásokon alapuló értékeléseket, ezzel kiegészítve a hagyományos benchmarkokat.

A tanulmány az arXiv:2605.20520v1 azonosító alatt érhető el, és a CRUX projekt keretében további hasonló tesztek várhatók a 2024. év folyamán.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom