A Naver Seoul World Model valódi Street View adatokat használ az AI-k városok hallucinálásának megakadályozására
A Seoul World Model 1,2 millió saját Street View képet használ fel, és hat jelenlegi video world modellt megelőzött a tesztekben.

A Naver Seoul World Model 1,2 millió saját Street View képet használ fel, valós városi geometriát hozva létre, ezzel megakadályozva az AI-k városok hallucinálását. A modell hat jelenlegi video world modellt megelőzött a tesztekben, és sikerrel generalizált ismeretlen városokra, mint például Busan és Ann Arbor, anélkül, hogy további képzést igényelt volna.
Az új megközelítés jelentősnek számít, mivel korábbi video world modellek általában fikciókat hoznak létre, az valós városi geometriát figyelmen kívül hagyva. A Naver és a Naver Cloud kutatói azonban egy olyan modellt hoztak létre, amely a valós városi környezetben gyökerezik, és a felhasználók text promptok segítségével módosíthatják a generált videókat.
A modell működése során a felhasználók földrajzi koordinátákat, kamera mozgást és text promptot adnak meg. A modell ezután egy 1,2 millió panorámakép adatbázisát használja fel, és a legközelebbi Street View képeket keresi meg, amelyeket azután a videó létrehozásának irányítására használ. A modell képes különbséget tenni az állandó és a múlékony elemek között, mint például az épületek és a járművek között.
A modell fejlesztése során a kutatók számos kihívással szembesültek, például a Street View képek korlátjaival, amelyek csupán pillanatfelvételek, és nem tükrözik a dinamikus jelenetet, amelyet a modellnek generálnia kell. A kutatók ezt a problémát a „cross-temporal pairing” mechanizmus segítségével oldották meg, amely lehetővé teszi a modell számára, hogy különbséget tegyen az állandó és a múlékony elemek között.
A modell hatékonyságát azzal is bizonyítja, hogy képes generalizálni ismeretlen városokra anélkül, hogy további képzést igényelne. Ez jelentős előrelépést jelent a video world modellek területén, és remélhetőleg további fejlesztéseknek ad teret a jövőben.