Frissítve: 14 perce·Ma: 63
Alkalmazások
AI által generált szöveg

A Netflix VOID modellje már most tökéletesen törölheti a videókból a tárgyakat

A VOID modell a CogVideoX 3D Transformeren alapul, 5 milliárd paraméterrel és interakció-érzékeny quadmask kondicionálással — írja a MarkTechPost.

A Netflix VOID modellje már most tökéletesen törölheti a videókból a tárgyakat
Fotó: Illia Horokhovsky / Unsplash
Forrás: MarkTechPostSzerző: AI Forradalom szerk.
Megosztás

A Netflix kutatócsapata olyan videókat hozott létre, amelyekben egy személy és egy tárgy interakciói láthatóak, majd a személyt eltávolították a jelenetből — írja a MarkTechPost.

A VOID modell ennél többet nyújt: nemcsak a tárgyat, hanem a tárgy és a környezet közötti interakciókat is figyelembe veszi. Például, ha egy személy egy gitárt tart a kezében, és a személyt eltávolítjuk a jelenetből, a VOID modell a gitárt is eltávolítja, és a gitár természetes módon leesik.

A modell a CogVideoX 3D Transformeren alapul, amely egy 3D-s videógenerációs modell. A VOID modell 5 milliárd paraméterrel rendelkezik, és interakció-érzékeny quadmask kondicionálást használ.

Az interakció-érzékeny quadmask kondicionálás egy 4-értékű maskot használ, amely kódolja a primer tárgyat, az átfedési régiókat, az érintett régiókat és a háttért.

A VOID modell két passzban működik. Az első passz a base inpainting modell, amely elegendő a legtöbb videóhoz. A második passz egy specifikus célra szolgál: korrigálja a modell egy ismert hibáját, amikor az objektumok morfolódnak.

A második passz nem csak a hosszabb klippekhez szükséges, hanem egy shape-stability fix. Amikor a diffüziós modell objektumokat generál, amelyek fokozatosan torzulnak vagy deformálódnak a keretek között, a második passz optikai áramlást használ, hogy a latenseket az első passzban származtassa, és azokat a második diffüziós futásba táplálja, rögzítve az objektumok alakját keretek között.

A VOID modell tréningje során a kutatók szintetikus videókat generáltak, amelyekben egy személy és egy tárgy interakciói láthatóak, majd a személyt eltávolították a jelenetből. A szintetikus videók a HUMOTO és a Kubric rendszerrel készültek.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom