Új AI modell jósolja meg az emberi mozgásokat egocentrikus videókból
Egy új AI modell a teljes test mozgását figyelembe vevő, részletes akcióreprezentációt használ, ami jelentős lépést jelent a komplex valós környezetek és az emberi viselkedés modellezésében. A modell a múltbeli képkockák és a kívánt 3D pózváltozások alapján jósolja meg a következő videóképet.

A jövőbeli videóképek előrejelzésére képes új AI-modellt mutatott be a BAIR Blog. A PEVA (Predicting Ego-centric Video from human Actions) nevű rendszer a múltbeli képkockák és a kívánt 3D pózváltozások alapján jósolja meg a következő videóképet, ami kulcsfontosságú lehet a megtestesült (embodied) AI ügynökök világmodelljeinek fejlesztésében — írja a BAIR Blog.
A modell a teljes test mozgását (48 szabadságfok) figyelembe vevő, részletes akcióreprezentációt használ. Ez a megközelítés a test ízületi hierarchiája által strukturált kinematikai póztrajektóriákra épül, és azt szimulálja, hogyan alakítják a fizikai emberi cselekvések a környezetet első személyű nézetből.
Valós adatokon tanult a PEVA
A PEVA-t a Nymeria nevű nagyméretű adathalmazon tanították be, amely valós, egocentrikus videókat párosít testtartás-adatokkal. Ez az adathalmaz lehetővé teszi, hogy az AI a valós emberi interakciókból és mozgásokból tanuljon, szemben az absztrakt vezérlőjelekkel vagy stilizált jelenetekkel.
A modell képes atomi akciók videóit generálni, ellenkező forgatókönyveket szimulálni, és hosszú videókat is előállítani. A kutatók szerint ez jelentős előrelépést jelent a komplex valós környezetek és az emberi viselkedés modellezésében, különösen azokban az esetekben, ahol a cselekvés és a látás erősen kontextusfüggő.
Az akcióreprezentáció 3D térben történik, 3 szabadságfokkal a gyökér transzlációjára és 15 felsőtest-ízületre, Euler-szögekkel a relatív ízületi rotációkhoz. Ez egy 48 dimenziós akcióteret eredményez, amely a teljes test dinamikáját és az ízületi mozgásokat is rögzíti. A mozgásrögzítési adatokat időbélyegekkel igazítják a videóhoz, majd lokális koordinátákba konvertálják a pozíció- és orientáció-invariancia érdekében.
Ez a munka egy kezdeti kísérlet a komplex valós környezetek és a megtestesült ügynökök viselkedésének modellezésére emberi perspektívájú videó-előrejelzésen keresztül. A modell segítségével a jövőben pontosabb és valósághűbb szimulációkat hozhatnak létre az AI-rendszerek számára.