Páros emberi mozgásgenerálást mutat be az ArXiv CV: bokszmeccsekből tanultak
A kutatásban a Transformer, iTransformer és Crossformer modelleket hasonlították össze, hogy a két mozgás kölcsönös függését modellezzék.

Páros emberi interakciók mozgásgenerálását oldották meg Transformer-alapú modellekkel az ArXiv CV kutatói — írja a friss tanulmány. A cél, hogy egyik ember mozgása alapján generálják a másik reakcióját, ami eddig kihívást jelentett a mélytanulásban.
A korábbi mélytanulási módszerek jellemzően egyetlen szereplő mozgására fókuszáltak, legyen szó szövegből generált videókról vagy jövőbeli szekvenciák előrejelzéséről. Ez a megközelítés azonban nem kezelte hatékonyan a két ember közötti kölcsönös függőséget, ami például egy bokszmeccs során létrejön.
A mozgások kölcsönös tánca
A kutatók egy új adathalmazt hoztak létre, amely bokszmeccsek videóiból kinyert páros akció-reakció mozgásszekvenciákat tartalmaz. Ezen adatok felhasználásával vizsgálták a Transformer-alapú modellek hatékonyságát a feladatban. A modellekbe egyedi személyazonosító beágyazásokat is integráltak, hogy explicit módon megkülönböztessék az egyéneket.
Áttörés a szimulációban
A Transformer modellek, mint a Transformer, iTransformer és Crossformer, jelentős számítási megtakarítást eredményezhetnek valós idejű interakciók esetén, például online chatbotoknál. A kutatás eredményei azt mutatják, hogy ezek a modellek képesek a komplex, kölcsönösen függő emberi mozgások szimulálására, ami új lehetőségeket nyithat meg a robotika és a virtuális valóság területén. A vizsgálat a 2024-es évben folytatódik a DeepMind és az ArXiv CV közreműködésével.