Frissítve: 2 órája·Ma: 4
Kutatás
AI által generált szöveg

Új VLATIM teljesítményteszt méri a VLM-ek logikai képességét a The Incredible Machine 2-ben

A VLATIM nevű új mérőeszköz a klasszikus The Incredible Machine 2 fizikai puzzle játékban értékeli a modellek emberihez hasonló logikai képességeit, öt progresszív részre bontva a teszteket.

Új VLATIM teljesítményteszt méri a VLM-ek logikai képességét a The Incredible Machine 2-ben
Fotó: Steve A Johnson / Unsplash
Forrás: ArXiv AISzerző: AI Forradalom szerk.
Megosztás

A Vision-Language(-Action) modelleket (VLM) egyre gyakrabban alkalmazzák interaktív környezetekben, ám a meglévő teljesítménytesztek figyelmen kívül hagyják a pont- és kattintásos puzzle játékokhoz szükséges komplex fizikai érvelést — írja az arXiv-en megjelent tanulmány.

A kutatók ezért bevezették a Vision-Language Against The Incredible Machine (VLATIM) teljesítménytesztet, amely kifejezetten a magas szintű logikai érvelés és a precíz egérinterakciókat igénylő folyamatos cselekvési terek közötti kritikus szakadékot célozza. A teszt a vizuális alapozástól és a domain megértésétől kezdve a többlépéses manipulációig és a teljes puzzle-megoldásig terjedő képességeket méri.

A logikai képességek mélyén

Az eredmények jelentős eltérést mutatnak az érvelési és a végrehajtási képességek között. Míg a nagy, zárt forráskódú modellek kiváló tervezési képességekről tesznek tanúbizonyságot, addig a pontos egérmozdulatokat igénylő feladatokban már gyengébben teljesítenek.

Az emberi logika követése

Ez arra utal, hogy a VLM-ek még nem képesek teljes mértékben utánozni az emberi logikai problémamegoldást az ilyen típusú játékokban, mint a The Incredible Machine 2, amely az új VLATIM teljesítményteszt alapját képezi 2024-ben.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom