Kutatás2026. ápr. 15.frissítve: 06:26

Új teljesítményteszt méri a nagyméretű modellek térbeli intelligenciáját

A jelenlegi értékelési módszerek csak elszigetelt térbeli primitíveket vizsgálnak, ami korlátozza a modellek valódi képességeinek felmérését.

Fotó: Fotó: Logan Gutierrez / Unsplash

forrás: ArXiv AI·AI Forradalom szerk.·2026. április 15.

Megosztás

Új mérőeszközt, az úgynevezett SCBench-et mutattak be kutatók, amely a nagyméretű AI-modellek (LLM-ek) térbeli intelligenciáját hivatott felmérni. A térbeli kompetencia azt a képességet jelenti, hogy a modellek képesek fenntartani egy környezet konzisztens belső reprezentációját, abból diszkrét struktúrákat következtetni, és korlátok között cselekvéseket tervezni — írja az arXiv előnyomtatott tanulmánya.

A SCBench ezzel szemben három hierarchikus képességkategóriát ölel fel, és olyan feladatokat tartalmaz, amelyek végrehajtható kimeneteket igényelnek. Ezeket determinisztikus ellenőrzők vagy szimulátor alapú értékelők ellenőrzik.

A térbeli intelligencia mérlegén

A SCBench tesztjein három élvonalbeli modell monoton csökkenő pontosságot mutatott a képességi létra mentén, ami azt jelzi, hogy a komplexebb térbeli feladatok komoly kihívást jelentenek számukra. A pontosságnövekedés ráadásul alacsony kimeneti token-költségvetésnél koncentrálódik és gyorsan telítődik, ami arra utal, hogy a modellek nem képesek hatékonyan skálázni a teljesítményüket a feladatok komplexitásával.

A fejlődés térképe

A hibák jellege is árulkodó: a modellek gyakran lokálisan hihető geometriát generálnak, amely azonban megszeg globális korlátokat. Ez azt jelenti, hogy bár részlegesen helyes megoldásokat adhatnak, az összkép vagy a tágabb kontextus gyakran hiányzik a válaszaikból. A kutatók a feladatgenerátorokat, ellenőrzőket és vizualizációs eszközöket is nyilvánosságra hozták az arXiv:2604.09594v1 alatt, 2024. április 15-én.

tetszett a cikk? oszd meg →

Megosztás