Frissítve: 2 órája·Ma: 4
Kutatás
AI által generált szöveg

Videógenerálást gyorsít a HSA: kevesebb lépéssel dolgozik a DiT-modellekkel

A Heterogeneous Step Allocation (HSA) módszer a spatiotemporális tokenek sebességdinamikája alapján osztja el a zajtalanítási lépéseket, így optimalizálva a számítási költségeket.

Videógenerálást gyorsít a HSA: kevesebb lépéssel dolgozik a DiT-modellekkel
Fotó: Carlos Irineu da Costa / Unsplash
Forrás: ArXiv CVSzerző: AI Forradalom szerk.
Megosztás

Új, tréningmentes következtetési algoritmust fejlesztettek ki, amely jelentősen csökkenti a videógeneráló Diffusion Transformer (DiT) modellek számítási igényét — írja az arXiv-on megjelent tanulmány.

A DiT-modellek, bár kiváló minőségű videókat állítanak elő, rendkívül erőforrás-igényesek, mivel minden tokenre azonos számú zajtalanítási lépést alkalmaznak. A kutatók szerint ez felesleges, hiszen az emberi látás is figyelmen kívül hagyja a redundáns mozgásokat.

A Heterogeneous Step Allocation (HSA) algoritmus a tokenek sebességdinamikája alapján eltérő lépésszámot rendel a különböző spatiotemporális tokenekhez. A módszer egy KV-cache szinkronizációs mechanizmust is bevezet, amely lehetővé teszi az aktív tokenek számára, hogy a teljes szekvenciát figyelembe vegyék, miközben az inaktív tokeneket teljesen kihagyják. Emellett egy gyorsított Euler-frissítéssel egyetlen lépésben halad előre a kihagyott tokenek látens állapota.

A HSA a számítási költségeket a felére csökkenti, miközben a generált videók minősége megmarad. A tanulmány a 2605.06892v1 azonosítóval érhető el az arXiv preprint szerveren.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom