Új teljesítményteszt méri a nagyméretű modellek térbeli intelligenciáját
A jelenlegi értékelési módszerek csak elszigetelt térbeli primitíveket vizsgálnak, ami korlátozza a modellek valódi képességeinek felmérését.

Új mérőeszközt, az úgynevezett SCBench-et mutattak be kutatók, amely a nagyméretű AI-modellek (LLM-ek) térbeli intelligenciáját hivatott felmérni. A térbeli kompetencia azt a képességet jelenti, hogy a modellek képesek fenntartani egy környezet konzisztens belső reprezentációját, abból diszkrét struktúrákat következtetni, és korlátok között cselekvéseket tervezni — írja az arXiv előnyomtatott tanulmánya.
A SCBench ezzel szemben három hierarchikus képességkategóriát ölel fel, és olyan feladatokat tartalmaz, amelyek végrehajtható kimeneteket igényelnek. Ezeket determinisztikus ellenőrzők vagy szimulátor alapú értékelők ellenőrzik.
A térbeli intelligencia mérlegén
A SCBench tesztjein három élvonalbeli modell monoton csökkenő pontosságot mutatott a képességi létra mentén, ami azt jelzi, hogy a komplexebb térbeli feladatok komoly kihívást jelentenek számukra. A pontosságnövekedés ráadásul alacsony kimeneti token-költségvetésnél koncentrálódik és gyorsan telítődik, ami arra utal, hogy a modellek nem képesek hatékonyan skálázni a teljesítményüket a feladatok komplexitásával.
A fejlődés térképe
A hibák jellege is árulkodó: a modellek gyakran lokálisan hihető geometriát generálnak, amely azonban megszeg globális korlátokat. Ez azt jelenti, hogy bár részlegesen helyes megoldásokat adhatnak, az összkép vagy a tágabb kontextus gyakran hiányzik a válaszaikból. A kutatók a feladatgenerátorokat, ellenőrzőket és vizualizációs eszközöket is nyilvánosságra hozták az arXiv:2604.09594v1 alatt, 2024. április 15-én.