Új VLATIM teljesítményteszt méri a VLM-ek logikai képességét a The Incredible Machine 2-ben
A VLATIM nevű új mérőeszköz a klasszikus The Incredible Machine 2 fizikai puzzle játékban értékeli a modellek emberihez hasonló logikai képességeit, öt progresszív részre bontva a teszteket.

A Vision-Language(-Action) modelleket (VLM) egyre gyakrabban alkalmazzák interaktív környezetekben, ám a meglévő teljesítménytesztek figyelmen kívül hagyják a pont- és kattintásos puzzle játékokhoz szükséges komplex fizikai érvelést — írja az arXiv-en megjelent tanulmány.
A kutatók ezért bevezették a Vision-Language Against The Incredible Machine (VLATIM) teljesítménytesztet, amely kifejezetten a magas szintű logikai érvelés és a precíz egérinterakciókat igénylő folyamatos cselekvési terek közötti kritikus szakadékot célozza. A teszt a vizuális alapozástól és a domain megértésétől kezdve a többlépéses manipulációig és a teljes puzzle-megoldásig terjedő képességeket méri.
A logikai képességek mélyén
Az eredmények jelentős eltérést mutatnak az érvelési és a végrehajtási képességek között. Míg a nagy, zárt forráskódú modellek kiváló tervezési képességekről tesznek tanúbizonyságot, addig a pontos egérmozdulatokat igénylő feladatokban már gyengébben teljesítenek.
Az emberi logika követése
Ez arra utal, hogy a VLM-ek még nem képesek teljes mértékben utánozni az emberi logikai problémamegoldást az ilyen típusú játékokban, mint a The Incredible Machine 2, amely az új VLATIM teljesítményteszt alapját képezi 2024-ben.