Kutatás2026. ápr. 23.frissítve: 07:30

Új keretrendszerrel kap precíz kameraállítást a szövegből képet generáló AI

A módszerrel a modellek globális jelenetértéssel képesek kezelni a kameraállást, ami eddig kihívást jelentett a természetes nyelvi utasításoknál.

Fotó: Thomas Murphy / Unsplash

forrás: ArXiv CV·AI Forradalom szerk.·2026. április 23.

Megosztás

Precíziós kameravezérlést tesz lehetővé a szövegből képet generáló AI-modellek számára egy új keretrendszer, amely paraméteres kamera tokenek betanításával működik — írja az ArXiv CV.

A kutatók finomhangolták a képgeneráló modelleket nézőpont-kondicionált szövegből képre generálásra. Ehhez egy speciálisan összeállított adathalmazt használtak, amely 3D-renderelt képeket tartalmaz geometriai felügyelet céljából, valamint fotorealisztikus kiegészítéseket a megjelenés és a háttér sokszínűségének biztosítására.

A minőségi és mennyiségi kísérletek szerint a módszer a legmodernebb pontosságot éri el, miközben megőrzi a képminőséget és a prompt hűségét. A korábbi, objektumspecifikus megjelenési korrelációkra túlságosan illeszkedő módszerekkel ellentétben az új kamera tokenek faktorizált geometriai reprezentációkat tanulnak.

Ezek a reprezentációk átvihetők eddig nem látott objektumkategóriákra is. A kutatás azt mutatja, hogy a szöveg-látás látens terek explicit 3D kamera struktúrával is felruházhatók.

tetszett a cikk? oszd meg →

Megosztás