Kutatás2026. ápr. 27.frissítve: 05:50

Páros emberi mozgásgenerálást mutat be az ArXiv CV: bokszmeccsekből tanultak

A kutatásban a Transformer, iTransformer és Crossformer modelleket hasonlították össze, hogy a két mozgás kölcsönös függését modellezzék.

Fotó: Fotó: Herve / Unsplash

forrás: ArXiv CV·AI Forradalom szerk.·2026. április 27.

Megosztás

Páros emberi interakciók mozgásgenerálását oldották meg Transformer-alapú modellekkel az ArXiv CV kutatói — írja a friss tanulmány. A cél, hogy egyik ember mozgása alapján generálják a másik reakcióját, ami eddig kihívást jelentett a mélytanulásban.

A korábbi mélytanulási módszerek jellemzően egyetlen szereplő mozgására fókuszáltak, legyen szó szövegből generált videókról vagy jövőbeli szekvenciák előrejelzéséről. Ez a megközelítés azonban nem kezelte hatékonyan a két ember közötti kölcsönös függőséget, ami például egy bokszmeccs során létrejön.

A mozgások kölcsönös tánca

A kutatók egy új adathalmazt hoztak létre, amely bokszmeccsek videóiból kinyert páros akció-reakció mozgásszekvenciákat tartalmaz. Ezen adatok felhasználásával vizsgálták a Transformer-alapú modellek hatékonyságát a feladatban. A modellekbe egyedi személyazonosító beágyazásokat is integráltak, hogy explicit módon megkülönböztessék az egyéneket.

Áttörés a szimulációban

A Transformer modellek, mint a Transformer, iTransformer és Crossformer, jelentős számítási megtakarítást eredményezhetnek valós idejű interakciók esetén, például online chatbotoknál. A kutatás eredményei azt mutatják, hogy ezek a modellek képesek a komplex, kölcsönösen függő emberi mozgások szimulálására, ami új lehetőségeket nyithat meg a robotika és a virtuális valóság területén. A vizsgálat a 2024-es évben folytatódik a DeepMind és az ArXiv CV közreműködésével.

tetszett a cikk? oszd meg →

Megosztás