A HY-World 2.0 szövegből és képekből épít valósághű 3D világokat
A HY-World 2.0 nemcsak létrehozza, hanem rekonstruálja és szimulálja is a 3D környezeteket, ami kulcsfontosságú lehet a robotika és a játékfejlesztés számára.

Új multimodális világmodellt mutatott be a HY-World kutatócsoport, amely szöveges promptokból, képekből és videókból is képes 3D világokat létrehozni — derül ki az arXiv-on előzetesen publikált tanulmányból.
A HY-World 2.0 a korábbi HY-World 1.0 továbbfejlesztett változata, amely navigálható 3D Gaussian Splatting (3DGS) jeleneteket szintetizál. A modell szöveges vagy egyetlen kép alapú bemenetekből is képes nagy hűségű, valósághű 3D környezeteket generálni.
A generálási folyamat négy fő szakaszból áll: a panoráma generálásért a HY-Pano 2.0 felel, az útvonaltervezést a WorldNav végzi, a világ bővítését a WorldStereo 2.0, míg a világ kompozícióját a WorldMirror 2.0 kezeli. A fejlesztők kiemelték a panoráma hűségének növelését, a 3D jelenetmegértés és tervezés képességét, valamint a WorldStereo és WorldMirror modellek frissítését.
A HY-World 2.0 képes 3D világok rekonstruálására is több nézetből készült képek vagy videók alapján. Ez a képesség a robotika szimulációjában, a játékfejlesztésben és a környezet feltérképezésében is hasznos lehet. A kutatók minden modell súlyát, kódját és technikai részletét nyilvánosan elérhetővé tették a GitHubon, ezzel segítve a reprodukálhatóságot és a további kutatásokat a 3D világmodellek terén.