ÉlőUtoljára: 7 perceMa: 10
Kutatásfrissítve: 06:30

MetaWorld: Egyszerű videókból szinkronizálja a többügynökös AI-világokat

A MetaWorld keretrendszer egyetlen videóból képes többügynökös világmodelleket létrehozni, megoldva az adat-szűkösség és a szinkronizációs problémákat.

MetaWorld: Egyszerű videókból szinkronizálja a többügynökös AI-világokat
Fotó: Paul Einerhand / Unsplash
forrás: ArXiv CV·AI Forradalom szerk.·
Megosztás

A MetaWorld keretrendszer új megközelítést kínál a többügynökös videó világmodellek skálázásához nyílt doménű környezetekben, kizárólag egyetlen nézőpontból rögzített videóadatok felhasználásával. A korábbi módszerekkel ellentétben, amelyek egyetlen ügynök megfigyeléseire korlátozódtak, a MetaWorld a többügynökös beállítások kihívásait, mint az adat-szűkösség és a világállapot-illesztés, egyaránt kezeli.

A kutatók a Monocular World-State Unrolling (MWSU) technikát vezették be, amely egyetlen videófelvételt a kamera mozgására és a látható alanyok térbeli pályájára bont. Ez a felbontás lehetővé teszi a szinkronizált többügynökös mozgásadatok kinyerését egy közös 3D-s térben, így elkerülhetővé válik a drága többkamerás felvételek szükségessége. A Subject-Aware World Generator pedig lehetővé teszi a megjelenés-vezérelt szimulációt, amely ügynökspecifikus azonosító képekhez kötődik a pontos vizuális vezérlés érdekében.

Kapcsolódó: Világmodell fejlesztés

A szimuláció szövetének szőtte

A pontos vizuális vezérlés érdekében a kutatók kifejlesztették a Subject-Aware World Generator-t, amely lehetővé teszi a megjelenés-vezérelt szimulációt, ügynökspecifikus azonosító képekhez kötve. Ez a módszer biztosítja, hogy az egyes ügynökök megjelenése konzisztens maradjon a szimuláció során.

Kapcsolódó: Világmodellek hibajavítása

A két nézet fizikai valóságba való megalapozásához a World-State Alignment (WSA) nevű eljárást alkalmazzák. Ez egy keret-szintű, ág-közi kereszt-figyelem mechanizmus, amely a videó DiT minden transzformer rétegébe beillesztésre kerül. A denoising folyamat közös szinkronizálásával a WSA statikus geometriai és dinamikus mozgási konzisztenciát is érvényesít, biztosítva, hogy a közös 3D-s környezet és a fizikai események mindkét egocentrikus nézetben jól illeszkedjenek egymáshoz.

Kapcsolódó: Nyílt világú feladatmegoldás

A valóság mozaikjainak összerakása

A kiterjedt kísérletek kimutatták, hogy a MetaWorld kiváló kereszt-nézeti konzisztenciát és azonosító hűséget ér el. A MetaWorld keretrendszer 2024. március 15-én kerül bejelentésre a MetaEmbodied AI konferencián.

Kapcsolódó: Annotátorok egyetértése

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom