ÉlőUtoljára: 20 perceMa: 25
Kutatásfrissítve: 03:30

CRUX: AI-ügynök két hibával publikált iOS appot az App Store-ba

A CRUX, egy 17 kutatóból álló együttműködés, új, valós világú értékelési módszert vezet be a határ-AI képességek mérésére, miután egy AI-ügynök sikeresen publikált egy iOS alkalmazást.

CRUX: AI-ügynök két hibával publikált iOS appot az App Store-ba
Fotó: Fotó: appshunter.io / Unsplash
forrás: AI Snake Oil·AI Forradalom szerk.·
Megosztás

A mesterséges intelligencia modellek mára telítették a legtöbb teljesítménytesztet, de ez nem jelenti azt, hogy valós termékeket is képesek lennének létrehozni vagy tudományos kísérleteket végrehajtani. Ezt a hiányosságot célozza meg a „open-world evaluation” (nyílt világú értékelés) koncepció, amelyet a CRUX projekt keretében vizsgálnak — írja az AI Snake Oil.

A CRUX, egy akadémiai, kormányzati, civil és ipari kutatókból álló konzorcium, rendszeresen értékeli majd a határ-AI képességeket ilyen valós környezetben. Első kísérletükben egy AI-ügynök egy egyszerű iOS alkalmazást fejlesztett és publikált az App Store-ban, mindössze két hibával. Az egyik hiba manuális beavatkozást igényelt, a másik egy fiktív telefonszám megadása volt az App Store felülvizsgálati folyamatához.

Az AI-ügynök próbatétele

Ez a kísérlet nemcsak az AI potenciálisan hasznos képességeire utal, hanem korai figyelmeztetést is ad az AI-vezérelt App Store spam lehetőségére. A kutatók egy hónappal a publikáció előtt tájékoztatták az Apple-t az eredményekről. A teljes folyamat, az app fejlesztésétől a publikálásig, körülbelül 1000 dollárba került, bár a tényleges fejlesztés és beküldés csak 25 dollár volt; a költségek nagy részét az app státuszának monitorozása emésztette fel.

A jövő kihívásai

A CRUX célja, hogy hasonló kísérletekkel más valós területeken is korai figyelmeztetéseket adjon ki. A kutatók a CRUX projekt keretében 2024-ben tervezik folytatni a kísérleteket, az Apple-nél pedig a biztonsági csapatok már dolgoznak a lehetséges AI-vezérelt fenyegetések elleni védekezésen.

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom