Egyetlen GPU-n generál perces, 720p videót a NVIDIA új nyílt forráskódú modellje

A NVIDIA egy új, nyílt forráskódú világmodellt mutatott be, a SANA-WM-et, amely egyetlen GPU-n képes perces, 720p felbontású videókat generálni. A 2.6 milliárd paraméteres modell a cég szerint a valósághű videógenerálás korábbi korlátait célozza meg, amelyek eddig több GPU-t vagy alacsonyabb felbontást igényeltek — írja a MarkTechPost.

A SANA-WM egy Diffusion Transformer (DiT) architektúrára épül, amelyet natívan egyperces, 720p felbontású videók generálására képeztek ki, metrikus skálájú 6-DoF (hat szabadságfokú) kamera vezérléssel. Kiemelkedő, hogy bár 64 H100 GPU-n képezték, egyetlen RTX 5090 GPU-n is futtatható.

A videógenerálás új dimenziója

Az architektúra kulcsfontosságú eleme a hibrid lineáris figyelem, amely Gated DeltaNet (GDN) mechanizmussal kezeli a hosszú szekvenciákat. Ez a megoldás kiküszöböli a hagyományos softmax figyelem kvadratikus memória- és számítási igényét, ami különösen problémás lenne 961 látens képkocka generálásakor egy 60 másodperces videóhoz.

A pontos mozgáskövetés érdekében a SANA-WM egy kétágú kameravezérlő rendszert is alkalmaz. Az egyik ág a látens képkocka sebességén működik, globális pályaszerkezetet rögzítve, míg a másik ág a pixel-szintű Plücker raymap-eket használja az intra-stride kameramozgás helyreállítására.

Vizuális eltolódás csökkentése

A SANA-WM a SANA-Video kódbázisára épül, és a NVlabs/Sana GitHub tárolón keresztül érhető el. A kutatók egy kétlépcsős generációs folyamatot is bevezettek, ahol egy második fázisú finomító korrigálja az első fázis által generált esetleges strukturális hibákat, jelentősen csökkentve a hosszú távú vizuális eltolódást. A modell 212 975 klipből álló adathalmazon tanult, és a desztillált változat 34 másodperc alatt denoise-ol egy 60 másodperces 720p klipet egyetlen RTX 5090-en NVFP4 kvantálással, 2024. március 15-én tették közzé.