Kutatás2026. máj. 29.frissítve: 10:50

Új módszer teszi lehetővé a VLM-ek használatát 3D-s modellek generálásához

A GAP3D nevű új módszer a VLM-ek által generált latenseket közvetlenül igazítja egy előre betanított képkódoló patch-szintű embedding-teréhez, lehetővé téve a 3D-s eszközök generálását.

Fotó: Albert Hyseni / Unsplash

forrás: ArXiv CV·AI Forradalom szerk.·2026. május 29.

Megosztás

A generatív modellek vezérlésére használt vision-language modellek (VLM) integrálása általában drága, végponttól végpontig tartó betanítást igényel, vagy a térbeli struktúrát elhanyagoló, tömörített reprezentációkhoz képezik le a jellemzőket. Ez utóbbi hátrányos a 3D-s eszközök generálásához hasonló, geometriára érzékeny feladatoknál.

A probléma megoldására a kutatók bemutatták a GAP3D-t, egy moduláris, diffúzióalapú megközelítést. Ez a VLM-latenseket közvetlenül igazítja egy előre betanított képkódoló teljes, patch-szintű jellemzőteréhez. Ezáltal egy lefagyasztott, utólagos generatív modell is használhatja a VLM-et promptkódolóként, miközben megőrzi a térbeli struktúrájú vezérlőjelet — írja a kutatás.

Kapcsolódó: 3D primitívek

A térbeli struktúra áthidalása

A 3D-s eszközök generálásánál értékelt módszer megkerüli a nagyméretű 3D-s adathalmazok szükségességét, mivel főként általános kép-szöveg párokon tanult. A GAP3D emellett emergent zero-shot képességeket mutat többmodális utasítások esetén is, annak ellenére, hogy kizárólag szöveges bemeneten lett betanítva.

Kapcsolódó: 3D objektumdetekció

A moduláris integráció első lépései

Bár jelenleg a magas szintű szemantikát részesíti előnyben a finom részletekkel szemben, a GAP3D demonstrálja, hogy a VLM és a képkódoló jellemzőterei közötti reprezentációs szakadék áthidalható diffúzióalapú igazítással. A GAP3D 2024. január elsején kezdte meg működését a Stanford Egyetemen.

Kapcsolódó: 4D-s objektumok

tetszett a cikk? oszd meg →

Megosztás