MetaWorld: Egyszerű videókból szinkronizálja a többügynökös AI-világokat
A MetaWorld keretrendszer egyetlen videóból képes többügynökös világmodelleket létrehozni, megoldva az adat-szűkösség és a szinkronizációs problémákat.

A MetaWorld keretrendszer új megközelítést kínál a többügynökös videó világmodellek skálázásához nyílt doménű környezetekben, kizárólag egyetlen nézőpontból rögzített videóadatok felhasználásával. A korábbi módszerekkel ellentétben, amelyek egyetlen ügynök megfigyeléseire korlátozódtak, a MetaWorld a többügynökös beállítások kihívásait, mint az adat-szűkösség és a világállapot-illesztés, egyaránt kezeli.
A kutatók a Monocular World-State Unrolling (MWSU) technikát vezették be, amely egyetlen videófelvételt a kamera mozgására és a látható alanyok térbeli pályájára bont. Ez a felbontás lehetővé teszi a szinkronizált többügynökös mozgásadatok kinyerését egy közös 3D-s térben, így elkerülhetővé válik a drága többkamerás felvételek szükségessége. A Subject-Aware World Generator pedig lehetővé teszi a megjelenés-vezérelt szimulációt, amely ügynökspecifikus azonosító képekhez kötődik a pontos vizuális vezérlés érdekében.
Kapcsolódó: Világmodell fejlesztés
A szimuláció szövetének szőtte
A pontos vizuális vezérlés érdekében a kutatók kifejlesztették a Subject-Aware World Generator-t, amely lehetővé teszi a megjelenés-vezérelt szimulációt, ügynökspecifikus azonosító képekhez kötve. Ez a módszer biztosítja, hogy az egyes ügynökök megjelenése konzisztens maradjon a szimuláció során.
Kapcsolódó: Világmodellek hibajavítása
A két nézet fizikai valóságba való megalapozásához a World-State Alignment (WSA) nevű eljárást alkalmazzák. Ez egy keret-szintű, ág-közi kereszt-figyelem mechanizmus, amely a videó DiT minden transzformer rétegébe beillesztésre kerül. A denoising folyamat közös szinkronizálásával a WSA statikus geometriai és dinamikus mozgási konzisztenciát is érvényesít, biztosítva, hogy a közös 3D-s környezet és a fizikai események mindkét egocentrikus nézetben jól illeszkedjenek egymáshoz.
Kapcsolódó: Nyílt világú feladatmegoldás
A valóság mozaikjainak összerakása
A kiterjedt kísérletek kimutatták, hogy a MetaWorld kiváló kereszt-nézeti konzisztenciát és azonosító hűséget ér el. A MetaWorld keretrendszer 2024. március 15-én kerül bejelentésre a MetaEmbodied AI konferencián.
Kapcsolódó: Annotátorok egyetértése