A Netflix VOID modellje már most tökéletesen törölheti a videókból a tárgyakat
A VOID modell a CogVideoX 3D Transformeren alapul, 5 milliárd paraméterrel és interakció-érzékeny quadmask kondicionálással — írja a MarkTechPost.

A Netflix kutatócsapata olyan videókat hozott létre, amelyekben egy személy és egy tárgy interakciói láthatóak, majd a személyt eltávolították a jelenetből — írja a MarkTechPost.
A VOID modell ennél többet nyújt: nemcsak a tárgyat, hanem a tárgy és a környezet közötti interakciókat is figyelembe veszi. Például, ha egy személy egy gitárt tart a kezében, és a személyt eltávolítjuk a jelenetből, a VOID modell a gitárt is eltávolítja, és a gitár természetes módon leesik.
A modell a CogVideoX 3D Transformeren alapul, amely egy 3D-s videógenerációs modell. A VOID modell 5 milliárd paraméterrel rendelkezik, és interakció-érzékeny quadmask kondicionálást használ.
Az interakció-érzékeny quadmask kondicionálás egy 4-értékű maskot használ, amely kódolja a primer tárgyat, az átfedési régiókat, az érintett régiókat és a háttért.
A VOID modell két passzban működik. Az első passz a base inpainting modell, amely elegendő a legtöbb videóhoz. A második passz egy specifikus célra szolgál: korrigálja a modell egy ismert hibáját, amikor az objektumok morfolódnak.
A második passz nem csak a hosszabb klippekhez szükséges, hanem egy shape-stability fix. Amikor a diffüziós modell objektumokat generál, amelyek fokozatosan torzulnak vagy deformálódnak a keretek között, a második passz optikai áramlást használ, hogy a latenseket az első passzban származtassa, és azokat a második diffüziós futásba táplálja, rögzítve az objektumok alakját keretek között.
A VOID modell tréningje során a kutatók szintetikus videókat generáltak, amelyekben egy személy és egy tárgy interakciói láthatóak, majd a személyt eltávolították a jelenetből. A szintetikus videók a HUMOTO és a Kubric rendszerrel készültek.