Dex2HOI: Új AI-modell szimulál kétkezes, kétobjektumos ember-tárgy interakciókat
A Dex2HOI modell szimulálja az emberi kétkezes, kétobjektumos mozgásokat szöveges leírások alapján. A modell Dual-Stream Diffusion megközelítést használ, amelyben minden tárgy saját interakciós csatornán fut.

A kutatók bemutatták a Dex2HOI nevű új AI-modellt, amely képes valósághűen szimulálni az emberi kétkezes, kétobjektumos mozgásokat szöveges leírások alapján. Ez áttörést jelent az eddigi kutatásokhoz képest, amelyek főként az egyobjektumos interakciókra koncentráltak — írja az arXiv.
A Dex2HOI egy Dual-Stream Diffusion megközelítést használ. Ebben minden tárgy saját interakciós csatornán fut, és a rendszert bidirekcionális cross-attention koordinálja. A végső mozgás szintéziséhez egy Motion Fusion Networköt alkalmaz, amely új, kéz-relatív tárgyreprezentációkat és a teljes szekvenciára kiterjedő, érintésérzékeny kondicionálást használ.
Kapcsolódó: AI-mozgásgenerálás
A modell autoregresszíven mintázza a diffúziós folyamatot prefix-kondicionált ablakokon keresztül, így tetszőleges hosszúságú szekvenciákat képes generálni valós idejű sebességgel. Ez akár 540-szeres gyorsulást jelent a korábbi state-of-the-art módszerekhez képest, mivel nincs szükség tesztidőbeli optimalizálásra.
Kapcsolódó: 3D-s jelenetszintézis
A Dex2HOI jelentős előrelépést tesz az ember-tárgy interakciók (HOI) szimulációjában. A kutatás célja, hogy túllépjen a hagyományos egyobjektumos generáláson, és közelebb kerüljön a kifejező, több tárgyat érintő manipulációk szimulálásához. A kód és a modellek elfogadás után kerülnek nyilvánosságra.
Kapcsolódó: robotikai tanulás