Frissítve: 1 órája·Ma: 57
Kutatás
AI által generált szöveg

Az ARC-AGI-3 teszt szerint az AI rendszerek csak 1%-os teljesítményt érnek el

Az emberi tesztalanyok 100%-os teljesítményt értek el az ARC-AGI-3 teszt során

Az ARC-AGI-3 teszt szerint az AI rendszerek csak 1%-os teljesítményt érnek el
Fotó: Enchanted Tools / Unsplash
Forrás: ArXiv AISzerző: AI Forradalom szerk.
Megosztás

Az ARC-AGI-3 egy új, interaktív benchmark, amely a határozott agens intelligenciát teszteli. A környezetek absztrakt, fordulós játékok, ahol a résztvevőknek felfedezniük, célokat kell következtetniük, belső modelljeiket felépíteniük és hatékony cselekvési sorozatokat tervezniük kell, mindezt explicit utasítás nélkül.

A benchmark célja, hogy mérje a folyékony adaptív hatékonyságot új feladatokon. A szöveg és külső tudás kizárása miatt csak a Core Knowledge előítéletekre támaszkodik, és a nehézségi szinteket emberi tesztelés alapján kalibrálják.

A kutatók szerint az emberek 100 %-os sikerarányt értek el az összes környezetben, míg a jelenlegi színvonalú AI rendszerek, például a Gemini Pro 0,37 %-os, a GPT‑5.4 High 0,26 %-os pontszámot szereztek. Ez a legnagyobb különbség a korábbi ARC‑AGI-1 és 2 benchmarkokhoz képest.

Az ARC-AGI-3 a hatékonyság alapú pontozási keretrendszert használja, amely emberi akcióbázisokra épül. A benchmark tervezése során a résztvevők által elért eredményeket összehasonlítják a gépi megoldásokkal, hogy megmutassák a jelenlegi AI korlátait.

Jelenleg a kutatók a benchmark továbbfejlesztésén dolgoznak, és a következő iterációban a környezetek komplexitását növelik. A színvonalú AI rendszereknek most már a cél, hogy a 1 %-os határ fölé emeljék teljesítményüket, ami jelentős kutatási és fejlesztési erőfeszítéseket igényel.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom