Az ARC-AGI-3 teszt szerint az AI rendszerek csak 1%-os teljesítményt érnek el
Az emberi tesztalanyok 100%-os teljesítményt értek el az ARC-AGI-3 teszt során
Az ARC-AGI-3 egy új, interaktív benchmark, amely a határozott agens intelligenciát teszteli. A környezetek absztrakt, fordulós játékok, ahol a résztvevőknek felfedezniük, célokat kell következtetniük, belső modelljeiket felépíteniük és hatékony cselekvési sorozatokat tervezniük kell, mindezt explicit utasítás nélkül.
A benchmark célja, hogy mérje a folyékony adaptív hatékonyságot új feladatokon. A szöveg és külső tudás kizárása miatt csak a Core Knowledge előítéletekre támaszkodik, és a nehézségi szinteket emberi tesztelés alapján kalibrálják.
A kutatók szerint az emberek 100 %-os sikerarányt értek el az összes környezetben, míg a jelenlegi színvonalú AI rendszerek, például a Gemini Pro 0,37 %-os, a GPT‑5.4 High 0,26 %-os pontszámot szereztek. Ez a legnagyobb különbség a korábbi ARC‑AGI-1 és 2 benchmarkokhoz képest.
Az ARC-AGI-3 a hatékonyság alapú pontozási keretrendszert használja, amely emberi akcióbázisokra épül. A benchmark tervezése során a résztvevők által elért eredményeket összehasonlítják a gépi megoldásokkal, hogy megmutassák a jelenlegi AI korlátait.
Jelenleg a kutatók a benchmark továbbfejlesztésén dolgoznak, és a következő iterációban a környezetek komplexitását növelik. A színvonalú AI rendszereknek most már a cél, hogy a 1 %-os határ fölé emeljék teljesítményüket, ami jelentős kutatási és fejlesztési erőfeszítéseket igényel.