Frissítve: 2 órája·Ma: 14
Kutatás
AI által generált szöveg

YOSE: új keretrendszer gyorsítja a videóobjektum-eltávolítást, javítva a DiT-modellek sebességét

A YOSE nevű finomhangolási keretrendszer a DiT-alapú videógeneráló modellek hatékonyságát növeli, különösen az objektumok eltávolításakor.

YOSE: új keretrendszer gyorsítja a videóobjektum-eltávolítást, javítva a DiT-modellek sebességét
Fotó: Sai Manne / Unsplash
Forrás: ArXiv CVSzerző: AI Forradalom szerk.
Megosztás

Jelentősen gyorsíthatja a videóobjektum-eltávolítást egy új keretrendszer, a YOSE (You Only Select Essential Tokens), amely a Diffusion Transformer (DiT) alapú modellek lassúságát orvosolja — írja az ArXiv CV.

A DiT-alapú videógeneráló technológiák, bár lenyűgöző vizuális minőséget produkálnak, jelentős késleltetéssel működnek. Például a MiniMax Remover, amely a legjobb vizuális minőséget nyújtja, mindössze 10 képkocka/másodperc (FPS) sebességgel dolgozik, mivel a teljes térbeli-időbeli token-térben sűrű számításokat végez, még akkor is, ha csak egy kis maszkolt régió igényel feldolgozást.

A számítások sebességének áttörése

A YOSE keretrendszer két kulcsfontosságú komponenst vezet be: a Batch Variable-length Indexing (BVI) és a Diffusion Process Simulator (DiffSim) modult. A BVI egy differenciálható dinamikus indexelő operátor, amely adaptívan választja ki a lényeges tokeneket a maszk információi alapján, lehetővé téve a változó hosszúságú token-feldolgozást a minták között.

Vizuális minőség és sebesség egyensúlya

A DiffSim modul egy diffúziós folyamat-approximációs mechanizmust biztosít a maszkolatlan tokenek számára, ezzel is hozzájárulva a hatékonyság növeléséhez. A YOSE a Diffusion Transformer alapú videóobjektum-eltávolítási módszerek sebességét a MiniMax Remover esetében 25 FPS-re növelte, a vizuális minőség megőrzése mellett, 2024. március 10-én publikált kutatás szerint.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom