Videógenerálást gyorsít a HSA: kevesebb lépéssel dolgozik a DiT-modellekkel
A Heterogeneous Step Allocation (HSA) módszer a spatiotemporális tokenek sebességdinamikája alapján osztja el a zajtalanítási lépéseket, így optimalizálva a számítási költségeket.

Új, tréningmentes következtetési algoritmust fejlesztettek ki, amely jelentősen csökkenti a videógeneráló Diffusion Transformer (DiT) modellek számítási igényét — írja az arXiv-on megjelent tanulmány.
A DiT-modellek, bár kiváló minőségű videókat állítanak elő, rendkívül erőforrás-igényesek, mivel minden tokenre azonos számú zajtalanítási lépést alkalmaznak. A kutatók szerint ez felesleges, hiszen az emberi látás is figyelmen kívül hagyja a redundáns mozgásokat.
A Heterogeneous Step Allocation (HSA) algoritmus a tokenek sebességdinamikája alapján eltérő lépésszámot rendel a különböző spatiotemporális tokenekhez. A módszer egy KV-cache szinkronizációs mechanizmust is bevezet, amely lehetővé teszi az aktív tokenek számára, hogy a teljes szekvenciát figyelembe vegyék, miközben az inaktív tokeneket teljesen kihagyják. Emellett egy gyorsított Euler-frissítéssel egyetlen lépésben halad előre a kihagyott tokenek látens állapota.
A HSA a számítási költségeket a felére csökkenti, miközben a generált videók minősége megmarad. A tanulmány a 2605.06892v1 azonosítóval érhető el az arXiv preprint szerveren.