Videóalapú benchmarkkal mérik az AI térbeli memóriáját – az Apple kutatói szerint hiányos a tudásintegráció
A teljesítményteszt célja, hogy túllépjen a puszta geometriai érzékelésen, és a tárgyak rendeltetésének megértésére fókuszáljon, feltárva a jelenlegi modellek hiányosságait.

Új, videóalapú teljesítménytesztet mutatott be az Apple, a Mila (Université de Montréal) és a New York University kutatócsoportja, amely a többmodális nagyméretű nyelvi modellek (MLLM) térbeli-funkcionális intelligenciáját értékeli — derül ki a CVPR konferencián közzétett tanulmányból.
A SFI-Bench névre keresztelt rendszer nem csupán azt méri, hogy az AI hol helyezkednek el a tárgyak, hanem azt is, hogy mire valók. A kutatók szerint az igazi térbeli intelligencia megköveteli a tárgyak rendeltetésének megértését, nem csak a puszta geometriai elhelyezkedésüket.
Több mint 1700 kérdés, valós videókból
A teljesítményteszt több mint 1700 kérdést tartalmaz, amelyeket egocentrikus, beltéri videófelvételekből generáltak. A SFI-Bench két fő dimenziót értékel: a strukturált térbeli érvelést (komplex elrendezések megértése) és a funkcionális érvelést (tárgyak használhatóságának és kontextusfüggő hasznosságának következtetése).
A feladatok között szerepel a feltételes számlálás, a többlépcsős relációs érvelés, a funkcionális párosítás és a tudásalapú hibaelhárítás. Ezek a kihívások közvetlenül tesztelik a modellek azon képességét, hogy integrálják az észlelést, a memóriát és a következtetést.
A kutatás szerint a jelenlegi MLLM-ek következetesen küzdenek a térbeli memória, a funkcionális és a külső tudás integrálásával, ami kritikus szűk keresztmetszetet jelent – állítják a Le Zhang, Jihan Yang, Soundarya Krishnan és társaik által jegyzett tanulmányban.
A SFI-Bench így alapvető eszközt biztosít a kognitívan fejlettebb és valóban megalapozott többmodális ágensek felé vezető út méréséhez és előmozdításához. A kutatócsoport a továbbiakban a modellek térbeli-funkcionális integrációs képességeinek javítására fókuszál.