Kutatás2026. ápr. 14.frissítve: 16:02

Új AI modell jósolja meg az emberi mozgásokat egocentrikus videókból

Egy új AI modell a teljes test mozgását figyelembe vevő, részletes akcióreprezentációt használ, ami jelentős lépést jelent a komplex valós környezetek és az emberi viselkedés modellezésében. A modell a múltbeli képkockák és a kívánt 3D pózváltozások alapján jósolja meg a következő videóképet.

Fotó: Fotó: Brett Jordan / Unsplash

forrás: BAIR Blog·AI Forradalom szerk.·2026. április 14.

Megosztás

A jövőbeli videóképek előrejelzésére képes új AI-modellt mutatott be a BAIR Blog. A PEVA (Predicting Ego-centric Video from human Actions) nevű rendszer a múltbeli képkockák és a kívánt 3D pózváltozások alapján jósolja meg a következő videóképet, ami kulcsfontosságú lehet a megtestesült (embodied) AI ügynökök világmodelljeinek fejlesztésében — írja a BAIR Blog.

A modell a teljes test mozgását (48 szabadságfok) figyelembe vevő, részletes akcióreprezentációt használ. Ez a megközelítés a test ízületi hierarchiája által strukturált kinematikai póztrajektóriákra épül, és azt szimulálja, hogyan alakítják a fizikai emberi cselekvések a környezetet első személyű nézetből.

Valós adatokon tanult a PEVA

A PEVA-t a Nymeria nevű nagyméretű adathalmazon tanították be, amely valós, egocentrikus videókat párosít testtartás-adatokkal. Ez az adathalmaz lehetővé teszi, hogy az AI a valós emberi interakciókból és mozgásokból tanuljon, szemben az absztrakt vezérlőjelekkel vagy stilizált jelenetekkel.

A modell képes atomi akciók videóit generálni, ellenkező forgatókönyveket szimulálni, és hosszú videókat is előállítani. A kutatók szerint ez jelentős előrelépést jelent a komplex valós környezetek és az emberi viselkedés modellezésében, különösen azokban az esetekben, ahol a cselekvés és a látás erősen kontextusfüggő.

Az akcióreprezentáció 3D térben történik, 3 szabadságfokkal a gyökér transzlációjára és 15 felsőtest-ízületre, Euler-szögekkel a relatív ízületi rotációkhoz. Ez egy 48 dimenziós akcióteret eredményez, amely a teljes test dinamikáját és az ízületi mozgásokat is rögzíti. A mozgásrögzítési adatokat időbélyegekkel igazítják a videóhoz, majd lokális koordinátákba konvertálják a pozíció- és orientáció-invariancia érdekében.

Ez a munka egy kezdeti kísérlet a komplex valós környezetek és a megtestesült ügynökök viselkedésének modellezésére emberi perspektívájú videó-előrejelzésen keresztül. A modell segítségével a jövőben pontosabb és valósághűbb szimulációkat hozhatnak létre az AI-rendszerek számára.

tetszett a cikk? oszd meg →

Megosztás