Frissítve: 2 órája·Ma: 4
Kutatás
AI által generált szöveg

3D primitívekkel javulhat a VLM-ek térbeli megértése — új teljesítményteszt méri a különbséget

A vizuális nyelvi modellek (VLM-ek) paradoxona, hogy képesek 3D jeleneteket rekonstruálni, mégis elbuknak egyszerű térbeli kérdéseken — ezen segíthet az új megközelítés.

3D primitívekkel javulhat a VLM-ek térbeli megértése — új teljesítményteszt méri a különbséget
Fotó: Sara Kurig / Unsplash
Forrás: ArXiv CVSzerző: AI Forradalom szerk.
Megosztás

A vizuális nyelvi modellek (VLM-ek) képesek végrehajtható kódot generálni, amely 3D-s jeleneteket rekonstruál geometriai primitívekből, ám ugyanezek a modellek gyakran kudarcot vallanak egyszerűbb térbeli kérdéseknél ugyanazon a képen — derül ki egy friss, előnyomtatott formában megjelent kutatásból, amelyet az arXiv-on tettek közzé.

A kutatók szerint a 3D geometriai primitívek, mint a kockák, gömbök és hengerek, amelyek végrehajtható kódban fejeződnek ki, hatékony köztes reprezentációként szolgálhatnak a térbeli megértéshez. Ezt a felismerést három fő hozzájárulással aknázták ki.

A térbeli megértés építőkövei

Először is bevezették a SpatialBabel nevű teljesítménytesztet, amely tizennégy VLM-et értékelt primitíveken alapuló 3D jelenet-rekonstrukcióban, hat különböző jelenetkód-nyelven. Ez a teszt rávilágított, hogy egyetlen modell objektumfelismerési F1-pontszáma akár 5,7-szeresen is eltérhet a különböző nyelveken.

Térbeli logika láncolata

Másodszor, a kutatók javasolták a Code-CoT (Code Chain-of-Thought) nevű, betanítás nélküli következtetési stratégiát, amely a térbeli megértés javítását célozza. Ez a módszer a kódalapú láncolt gondolkodásra épül, és a modellek belső logikáját használja fel a komplex térbeli problémák megoldására.

A kutatás eredményei az arXiv:2605.12586v1 azonosító alatt érhetők el, 2024. május 20-án kerülnek nyilvánosságra.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom