64-szeres tömörítéssel gyorsítja a mozgásgenerálást az Apple új AI-ja
A modell a nagyméretű mozgáspályákból tanult, tömörített mozgás-embeddingekkel dolgozik, így sokkal hatékonyabban modellezi a jelenetdinamikát.

Jelentősen hatékonyabb mozgásgenerálást tesz lehetővé az Apple új kutatása, amely egy 64-szeres időbeli tömörítéssel működő mozgás-embeddinget vezetett be — írja az Apple ML.
A 2026 áprilisában publikált tanulmány szerint a hagyományos videomodellek rendkívül ineffektívek, ha több lehetséges jövőbeli forgatókönyvet kell feltárniuk teljes videószintézissel.
Mozgás a mélyben
Az új megközelítés közvetlenül egy hosszú távú mozgás-embeddingen alapul, amelyet nyomkövető modellekből származó nagyméretű trajektóriákból tanultak. Ez a módszer lehetővé teszi hosszú, valósághű mozgások hatékony generálását, amelyeket szöveges promptokkal vagy térbeli beavatkozásokkal lehet specifikálni.
A kutatók először egy erősen tömörített mozgás-embeddinget képeztek, amely 64-szeres időbeli tömörítési faktort ért el. Ebben a tömörített térben egy feltételes áramlás-illesztési modellt (conditional flow-matching model) tanítottak be, hogy feladatleírások alapján generáljon mozgáslatenseket.
A hatékonyság kulcsa
Az eredményül kapott mozgáseloszlások felülmúlják mind a legmodernebb videomodellek, mind a speciális, feladatspecifikus megközelítések teljesítményét. A kutatásban Nick Stracke, Kolja Bauer, Stefan Andreas Baumann, Miguel Ángel Bautista, Josh Susskind és Björn Ommer vett részt, a CompVis a LMU-n és a Müncheni Gépi Tanulási Központ együttműködésével. A tanulmányt 2026 áprilisában publikálták az Apple ML oldalán.