Kutatás2026. márc. 28.frissítve: 00:05

Az ARC-AGI-3 teszt szerint az AI rendszerek csak 1%-os teljesítményt érnek el

Az emberi tesztalanyok 100%-os teljesítményt értek el az ARC-AGI-3 teszt során

Fotó: Enchanted Tools / Unsplash

forrás: ArXiv AI·AI Forradalom szerk.·2026. március 28.

Megosztás

Az ARC-AGI-3 egy új, interaktív benchmark, amely a határozott agens intelligenciát teszteli. A környezetek absztrakt, fordulós játékok, ahol a résztvevőknek felfedezniük, célokat kell következtetniük, belső modelljeiket felépíteniük és hatékony cselekvési sorozatokat tervezniük kell, mindezt explicit utasítás nélkül.

A benchmark célja, hogy mérje a folyékony adaptív hatékonyságot új feladatokon. A szöveg és külső tudás kizárása miatt csak a Core Knowledge előítéletekre támaszkodik, és a nehézségi szinteket emberi tesztelés alapján kalibrálják.

A kutatók szerint az emberek 100 %-os sikerarányt értek el az összes környezetben, míg a jelenlegi színvonalú AI rendszerek, például a Gemini Pro 0,37 %-os, a GPT‑5.4 High 0,26 %-os pontszámot szereztek. Ez a legnagyobb különbség a korábbi ARC‑AGI-1 és 2 benchmarkokhoz képest.

Az ARC-AGI-3 a hatékonyság alapú pontozási keretrendszert használja, amely emberi akcióbázisokra épül. A benchmark tervezése során a résztvevők által elért eredményeket összehasonlítják a gépi megoldásokkal, hogy megmutassák a jelenlegi AI korlátait.

Jelenleg a kutatók a benchmark továbbfejlesztésén dolgoznak, és a következő iterációban a környezetek komplexitását növelik. A színvonalú AI rendszereknek most már a cél, hogy a 1 %-os határ fölé emeljék teljesítményüket, ami jelentős kutatási és fejlesztési erőfeszítéseket igényel.

tetszett a cikk? oszd meg →

Megosztás