ÉlőUtoljára: 17 perceMa: 7
Kutatásfrissítve: 04:10

A HY-World 2.0 szövegből és képekből épít valósághű 3D világokat

A HY-World 2.0 nemcsak létrehozza, hanem rekonstruálja és szimulálja is a 3D környezeteket, ami kulcsfontosságú lehet a robotika és a játékfejlesztés számára.

A HY-World 2.0 szövegből és képekből épít valósághű 3D világokat
Fotó: Fotó: Jason Sung / Unsplash
forrás: ArXiv CV·AI Forradalom szerk.·
Megosztás

Új multimodális világmodellt mutatott be a HY-World kutatócsoport, amely szöveges promptokból, képekből és videókból is képes 3D világokat létrehozni — derül ki az arXiv-on előzetesen publikált tanulmányból.

A HY-World 2.0 a korábbi HY-World 1.0 továbbfejlesztett változata, amely navigálható 3D Gaussian Splatting (3DGS) jeleneteket szintetizál. A modell szöveges vagy egyetlen kép alapú bemenetekből is képes nagy hűségű, valósághű 3D környezeteket generálni.

A generálási folyamat négy fő szakaszból áll: a panoráma generálásért a HY-Pano 2.0 felel, az útvonaltervezést a WorldNav végzi, a világ bővítését a WorldStereo 2.0, míg a világ kompozícióját a WorldMirror 2.0 kezeli. A fejlesztők kiemelték a panoráma hűségének növelését, a 3D jelenetmegértés és tervezés képességét, valamint a WorldStereo és WorldMirror modellek frissítését.

A HY-World 2.0 képes 3D világok rekonstruálására is több nézetből készült képek vagy videók alapján. Ez a képesség a robotika szimulációjában, a játékfejlesztésben és a környezet feltérképezésében is hasznos lehet. A kutatók minden modell súlyát, kódját és technikai részletét nyilvánosan elérhetővé tették a GitHubon, ezzel segítve a reprodukálhatóságot és a további kutatásokat a 3D világmodellek terén.

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom