A Know3D lehetővé teszi, hogy a felhasználók szöveges parancsokkal irányítsák a 3D objektumok láthatatlan hátoldalát
A Know3D módszer a Qwen2.5-VL nyelvi modellt, a Qwen-Image-Edit képgenerátort és a Microsoft Trellis.2 3D generátort használja.

A Know3D módszerrel a felhasználók szöveges parancsokkal irányíthatják a 3D objektumok láthatatlan hátoldalát, amely korábban egyik legsúlyosabb korlátozása volt a 3D modellgenerációnak. A Chen et al. által kidolgozott megközelítés a nagy nyelvi modellek tudását használja fel a hátsó oldal irányítására.
A Know3D technológiájának alapja a Qwen2.5-VL nyelvi modell, amely 2022-ben került bemutatásra, és a Qwen-Image-Edit képgenerátor, amely a 3D modellgenerációban játszik kulcsszerepet.
A hiányzó láncszem
A kutatók ezt egy kávéscsésze példáján demonstrálják: ugyanazzal a bemeneti képpel, de különböző szöveges parancsokkal különböző, de geometriailag konzisztens hátsó oldalakat hozhatnak létre. A Know3D módszerrel elérhető kontroll mértéke a legfőbb előnye a meglévő módszerekhez képest.
Ahol a számok beszélnek
A Know3D a HY3D-Bench teljesítményteszten a legjobb eredményeket érte el a bemeneti kép és a generált 3D objektum szemantikai megfelelésében, mint azt a The Decoder közölte. Az eredmények azonban az alapul szolgáló nyelvi modell minőségétől függenek.
A Know3D technológiája a Microsoft Trellis.2 3D generátorral együttműködve 2023. március 15-én mutatkozott be a nagyközönségnek, és azóta folyamatos fejlesztés alatt áll.