Új VLATIM teljesítményteszt méri a VLM-ek logikai képességét a The Incredible Machine 2-ben

A VLATIM nevű új mérőeszköz a klasszikus The Incredible Machine 2 fizikai puzzle játékban értékeli a modellek emberihez hasonló logikai képességeit, öt progresszív részre bontva a teszteket.

Fotó: Steve A Johnson / Unsplash

Forrás: ArXiv AI•Szerző: AI Forradalom szerk.•2026. május 13.

Megosztás

A Vision-Language(-Action) modelleket (VLM) egyre gyakrabban alkalmazzák interaktív környezetekben, ám a meglévő teljesítménytesztek figyelmen kívül hagyják a pont- és kattintásos puzzle játékokhoz szükséges komplex fizikai érvelést — írja az arXiv-en megjelent tanulmány.

A kutatók ezért bevezették a Vision-Language Against The Incredible Machine (VLATIM) teljesítménytesztet, amely kifejezetten a magas szintű logikai érvelés és a precíz egérinterakciókat igénylő folyamatos cselekvési terek közötti kritikus szakadékot célozza. A teszt a vizuális alapozástól és a domain megértésétől kezdve a többlépéses manipulációig és a teljes puzzle-megoldásig terjedő képességeket méri.

A logikai képességek mélyén

Az eredmények jelentős eltérést mutatnak az érvelési és a végrehajtási képességek között. Míg a nagy, zárt forráskódú modellek kiváló tervezési képességekről tesznek tanúbizonyságot, addig a pontos egérmozdulatokat igénylő feladatokban már gyengébben teljesítenek.

Az emberi logika követése

Ez arra utal, hogy a VLM-ek még nem képesek teljes mértékben utánozni az emberi logikai problémamegoldást az ilyen típusú játékokban, mint a The Incredible Machine 2, amely az új VLATIM teljesítményteszt alapját képezi 2024-ben.