Frissítve: 9 perce·Ma: 10
Kutatás
AI által generált szöveg

Új keretrendszerrel kap precíz kameraállítást a szövegből képet generáló AI

A módszerrel a modellek globális jelenetértéssel képesek kezelni a kameraállást, ami eddig kihívást jelentett a természetes nyelvi utasításoknál.

Új keretrendszerrel kap precíz kameraállítást a szövegből képet generáló AI
Fotó: Thomas Murphy / Unsplash
Forrás: ArXiv CVSzerző: AI Forradalom szerk.
Megosztás

Precíziós kameravezérlést tesz lehetővé a szövegből képet generáló AI-modellek számára egy új keretrendszer, amely paraméteres kamera tokenek betanításával működik — írja az ArXiv CV.

A kutatók finomhangolták a képgeneráló modelleket nézőpont-kondicionált szövegből képre generálásra. Ehhez egy speciálisan összeállított adathalmazt használtak, amely 3D-renderelt képeket tartalmaz geometriai felügyelet céljából, valamint fotorealisztikus kiegészítéseket a megjelenés és a háttér sokszínűségének biztosítására.

A minőségi és mennyiségi kísérletek szerint a módszer a legmodernebb pontosságot éri el, miközben megőrzi a képminőséget és a prompt hűségét. A korábbi, objektumspecifikus megjelenési korrelációkra túlságosan illeszkedő módszerekkel ellentétben az új kamera tokenek faktorizált geometriai reprezentációkat tanulnak.

Ezek a reprezentációk átvihetők eddig nem látott objektumkategóriákra is. A kutatás azt mutatja, hogy a szöveg-látás látens terek explicit 3D kamera struktúrával is felruházhatók.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom