Kutatás2026. máj. 3.frissítve: 01:10

YOSE: új keretrendszer gyorsítja a videóobjektum-eltávolítást, javítva a DiT-modellek sebességét

A YOSE nevű finomhangolási keretrendszer a DiT-alapú videógeneráló modellek hatékonyságát növeli, különösen az objektumok eltávolításakor.

Fotó: Sai Manne / Unsplash

forrás: ArXiv CV·AI Forradalom szerk.·2026. május 3.

Megosztás

Jelentősen gyorsíthatja a videóobjektum-eltávolítást egy új keretrendszer, a YOSE (You Only Select Essential Tokens), amely a Diffusion Transformer (DiT) alapú modellek lassúságát orvosolja — írja az ArXiv CV.

A DiT-alapú videógeneráló technológiák, bár lenyűgöző vizuális minőséget produkálnak, jelentős késleltetéssel működnek. Például a MiniMax Remover, amely a legjobb vizuális minőséget nyújtja, mindössze 10 képkocka/másodperc (FPS) sebességgel dolgozik, mivel a teljes térbeli-időbeli token-térben sűrű számításokat végez, még akkor is, ha csak egy kis maszkolt régió igényel feldolgozást.

A számítások sebességének áttörése

A YOSE keretrendszer két kulcsfontosságú komponenst vezet be: a Batch Variable-length Indexing (BVI) és a Diffusion Process Simulator (DiffSim) modult. A BVI egy differenciálható dinamikus indexelő operátor, amely adaptívan választja ki a lényeges tokeneket a maszk információi alapján, lehetővé téve a változó hosszúságú token-feldolgozást a minták között.

Vizuális minőség és sebesség egyensúlya

A DiffSim modul egy diffúziós folyamat-approximációs mechanizmust biztosít a maszkolatlan tokenek számára, ezzel is hozzájárulva a hatékonyság növeléséhez. A YOSE a Diffusion Transformer alapú videóobjektum-eltávolítási módszerek sebességét a MiniMax Remover esetében 25 FPS-re növelte, a vizuális minőség megőrzése mellett, 2024. március 10-én publikált kutatás szerint.

tetszett a cikk? oszd meg →

Megosztás