A WAM modell 12 százalékponttal javítja a viselkedési klónozás sikerét
A WAM modell a CALVIN teljesítményteszt 8 manipulációs feladatán tesztelték, ahol a DreamerV2 és DiWA alapmodellhez képest javította a viselkedési klónozás sikerét.

A WAM modell a CALVIN teljesítményteszt 8 manipulációs feladatán tesztelték, és 12 százalékponttal emelte a viselkedési klónozás sikerét. Az eredmények 59,4 %-ról 71,2 %-ra ugróztak DreamerV2 és DiWA alapmodellekkel szemben.
A WAM egy akció-regularizált világmodell, amely a DreamerV2-be épül, és egy inverz dinamikai célkitűzéssel rendelkezik. Ez az új cél elősegíti, hogy a modellek a rejtett állapotátmenetekből előre jelezzék az akciókat, így a reprezentációk jobban tükrözik a vezérléshez szükséges szerkezetet.
A kutatók először viselkedési klónozással betanítottak egy difúziós politikát a világmodell latens térében, majd a modellel fagyott állapotban PPO-val finomhangolták. A WAM-vel 92,8 %-os átlagos sikerességet értek el a PPO finomhangolás után, ami jelentősen meghaladja a szokásos teljesítményt.
Ez a fejlődés azt jelzi, hogy az akciók beépítése a világmodellekbe erőteljesen javíthatja a robotikus manipulációk hatékonyságát. A WAM bemutatja, hogy a kép- és akcióadatok kombinálása új szintre emelheti a policy learning-et.
Mi következik? A kutatók a WAM-t tovább fejlesztik, hogy többféle feladatban is alkalmazható legyen, és a következő lépés a valós idejű, multimodális alkalmazásokba való integráció.