Fizikailag megbízhatóbb világmodellt ígér az ArXiv új Hamilton-perspektívája
A jelenlegi 2D videó-generatív, 3D jelenet-központú és JEPA-szerű látens modellek nem képesek hosszú távon stabil, fizikailag megbízható előrejelzésekre.

A világmodellek újra központi szerepet kapnak a megtestesült intelligencia, a robotika, az önvezető járművek és a modellalapú megerősítéses tanulás területén — írja az ArXiv AI legújabb tanulmánya. A kutatók szerint a generatív világmodellezés szűk keresztmetszete már nem a valósághű jövőképek generálása, hanem azok fizikai értelmezhetősége és cselekvés-orientált hasznossága.
A jelenlegi világmodell-kutatás három fő irányba oszlik: a vizuális jövőképre fókuszáló 2D videó-generatív modellek, a térbeli rekonstrukciót hangsúlyozó 3D jelenet-központú modellek, valamint az absztrakt prediktív reprezentációkra épülő JEPA-szerű látens modellek. Bár mindegyik területen jelentős előrelépések történtek, ezek a rendszerek továbbra is nehezen biztosítanak fizikailag megbízható, cselekvés-orientált és hosszú távon stabil előrejelzéseket a döntéshozatalhoz.
A tanulmány ezért a Hamiltonian World Models koncepcióját javasolja, amely fizikailag megalapozott perspektívát kínál a világmodellezéshez. A cél, hogy a modellek ne csak valósághű, hanem fizikailag is értelmes és hasznos jövőképeket hozzanak létre a robotika és az autonóm rendszerek számára.