Új keretrendszerrel kap precíz kameraállítást a szövegből képet generáló AI
A módszerrel a modellek globális jelenetértéssel képesek kezelni a kameraállást, ami eddig kihívást jelentett a természetes nyelvi utasításoknál.

Precíziós kameravezérlést tesz lehetővé a szövegből képet generáló AI-modellek számára egy új keretrendszer, amely paraméteres kamera tokenek betanításával működik — írja az ArXiv CV.
A kutatók finomhangolták a képgeneráló modelleket nézőpont-kondicionált szövegből képre generálásra. Ehhez egy speciálisan összeállított adathalmazt használtak, amely 3D-renderelt képeket tartalmaz geometriai felügyelet céljából, valamint fotorealisztikus kiegészítéseket a megjelenés és a háttér sokszínűségének biztosítására.
A minőségi és mennyiségi kísérletek szerint a módszer a legmodernebb pontosságot éri el, miközben megőrzi a képminőséget és a prompt hűségét. A korábbi, objektumspecifikus megjelenési korrelációkra túlságosan illeszkedő módszerekkel ellentétben az új kamera tokenek faktorizált geometriai reprezentációkat tanulnak.
Ezek a reprezentációk átvihetők eddig nem látott objektumkategóriákra is. A kutatás azt mutatja, hogy a szöveg-látás látens terek explicit 3D kamera struktúrával is felruházhatók.