ÉlőUtoljára: 31 perceMa: 0
Kutatásfrissítve: 08:50

Új módszer teszi lehetővé a VLM-ek használatát 3D-s modellek generálásához

A GAP3D nevű új módszer a VLM-ek által generált latenseket közvetlenül igazítja egy előre betanított képkódoló patch-szintű embedding-teréhez, lehetővé téve a 3D-s eszközök generálását.

Új módszer teszi lehetővé a VLM-ek használatát 3D-s modellek generálásához
Fotó: Fotó: Dmytro Vynohradov / Unsplash
forrás: ArXiv CV·AI Forradalom szerk.·
Megosztás

A generatív modellek vezérlésére használt vision-language modellek (VLM) integrálása általában drága, végponttól végpontig tartó betanítást igényel, vagy a térbeli struktúrát elhanyagoló, tömörített reprezentációkhoz képezik le a jellemzőket. Ez utóbbi hátrányos a 3D-s eszközök generálásához hasonló, geometriára érzékeny feladatoknál.

A probléma megoldására a kutatók bemutatták a GAP3D-t, egy moduláris, diffúzióalapú megközelítést. Ez a VLM-latenseket közvetlenül igazítja egy előre betanított képkódoló teljes, patch-szintű jellemzőteréhez. Ezáltal egy lefagyasztott, utólagos generatív modell is használhatja a VLM-et promptkódolóként, miközben megőrzi a térbeli struktúrájú vezérlőjelet — írja a kutatás.

Kapcsolódó: 3D primitívek

A térbeli struktúra áthidalása

A 3D-s eszközök generálásánál értékelt módszer megkerüli a nagyméretű 3D-s adathalmazok szükségességét, mivel főként általános kép-szöveg párokon tanult. A GAP3D emellett emergent zero-shot képességeket mutat többmodális utasítások esetén is, annak ellenére, hogy kizárólag szöveges bemeneten lett betanítva.

Kapcsolódó: 3D objektumdetekció

A moduláris integráció első lépései

Bár jelenleg a magas szintű szemantikát részesíti előnyben a finom részletekkel szemben, a GAP3D demonstrálja, hogy a VLM és a képkódoló jellemzőterei közötti reprezentációs szakadék áthidalható diffúzióalapú igazítással. A GAP3D 2024. január elsején kezdte meg működését a Stanford Egyetemen.

Kapcsolódó: 4D-s objektumok

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom