Videógenerálásban javít a VAE-k tömörítésén az új módszer

Új latens tömörítési módszert javasolnak kutatók a videó diffúziós modellekben használt variációs autoenkóderek (VAE) számára — derül ki egy előnyomtatott tanulmányból, amelyet az arXiv-on tettek közzé.

A Stable Diffusionhoz hasonló latens diffúziós modellekben a VAE kódolója képeket tömörít egy kisebb dimenziós latens térbe, megragadva a kép alapvető szemantikai jelentését. A videó VAE-k általában nagyszámú latens csatornát igényelnek a magas minőségű videórekonstrukcióhoz, ám a túl sok csatorna akadályozhatja a diffúziós modellek konvergenciáját és ronthatja a generatív teljesítményt, még akkor is, ha a rekonstrukciós minőség magas marad.

A videógenerálás rejtelmei

A javasolt módszer a videó latens reprezentációiban lévő magas frekvenciájú komponenseket távolítja el, ahelyett, hogy közvetlenül csökkentené a csatornák számát. Utóbbi gyakran a rekonstrukciós hűség rovására megy. A videógenerálás egyébként is nehezebb feladat, mint a képalkotás, mivel időbeli konzisztenciát igényel a képkockák között, és nehezebb nagy mennyiségű, jó minőségű videóadatot gyűjteni — írja Lilian Weng blogbejegyzésében.

A jövőkép tisztulása

A kísérleti eredmények azt mutatják, hogy az új módszer jobb videórekonstrukciós minőséget ér el az erős baseline-okhoz képest, miközben fenntartja ugyanazt az általános tömörítési arányt. A diffúziós modellek már a fehérjehajtogatásban is ígéretesek, például a PLAID modell, amely fehérjeszekvenciákat és 3D struktúrákat generál, a fehérjehajtogatási modellek latens terét felhasználva — olvasható a BAIR blogon.

A kutatók a BAIR blogon megjelent cikk alapján 2024-ben tervezik folytatni a kutatást a videó diffúziós modellek hatékonyabb latens tér kezelésével.