YOSE: új keretrendszer gyorsítja a videóobjektum-eltávolítást, javítva a DiT-modellek sebességét
A YOSE nevű finomhangolási keretrendszer a DiT-alapú videógeneráló modellek hatékonyságát növeli, különösen az objektumok eltávolításakor.

Jelentősen gyorsíthatja a videóobjektum-eltávolítást egy új keretrendszer, a YOSE (You Only Select Essential Tokens), amely a Diffusion Transformer (DiT) alapú modellek lassúságát orvosolja — írja az ArXiv CV.
A DiT-alapú videógeneráló technológiák, bár lenyűgöző vizuális minőséget produkálnak, jelentős késleltetéssel működnek. Például a MiniMax Remover, amely a legjobb vizuális minőséget nyújtja, mindössze 10 képkocka/másodperc (FPS) sebességgel dolgozik, mivel a teljes térbeli-időbeli token-térben sűrű számításokat végez, még akkor is, ha csak egy kis maszkolt régió igényel feldolgozást.
A számítások sebességének áttörése
A YOSE keretrendszer két kulcsfontosságú komponenst vezet be: a Batch Variable-length Indexing (BVI) és a Diffusion Process Simulator (DiffSim) modult. A BVI egy differenciálható dinamikus indexelő operátor, amely adaptívan választja ki a lényeges tokeneket a maszk információi alapján, lehetővé téve a változó hosszúságú token-feldolgozást a minták között.
Vizuális minőség és sebesség egyensúlya
A DiffSim modul egy diffúziós folyamat-approximációs mechanizmust biztosít a maszkolatlan tokenek számára, ezzel is hozzájárulva a hatékonyság növeléséhez. A YOSE a Diffusion Transformer alapú videóobjektum-eltávolítási módszerek sebességét a MiniMax Remover esetében 25 FPS-re növelte, a vizuális minőség megőrzése mellett, 2024. március 10-én publikált kutatás szerint.