OpenAI: 100 millió dollár a világmodellekbe
Az OpenAI 100 millió dollárt fektet be a világmodellek kutatásába. A cél egy olyan AI létrehozása, amely a fizikai világban is képes hatékonyan navigálni.

A mesterséges intelligencia rendszerek lenyűgöző digitális képességeket mutattak, de a fizikai világban továbbra is az ember dominál. Egy olyan AI létrehozása, amely regényt ír vagy alkalmazást kódol, sokkal könnyebb, mint egy olyané, amely ruhát hajtogat vagy várost navigál — ehhez sok kutató szerint úgynevezett világmodellekre van szükség, írja a MIT Technology Review.
A világmodellek ötlete nem új, de a Google DeepMind és a Stanford professzora, Fei-Fei Li vezette World Labs legújabb fejlesztései, valamint Yann LeCun Meta-tól való távozása, hogy egy világmodell-fókuszú startupot alapítson, ismét a figyelem középpontjába helyezték őket. Az OpenAI is beszáll a versenybe: a leállított Sora videóalkalmazás erőforrásait a hosszútávú világmodellezési kutatásokra csoportosítja át.
Li és LeCun szerint a világmodellek segítenek majd a kutatóknak leküzdeni a LLM-ek ismert korlátait, és valóra váltani az AI robotikában rejlő ígéretét. Bár a „világmodell” definíciója változó, mindegyik a külső világ intelligens rendszerek általi reprezentációjára összpontosít. A LLM-ek „világértése” törékenynek bizonyult: egy New York-i taxizások adatbázisán képzett modell például megbízhatóan navigál Manhattanben, de ha kitérőre kényszerítik, teljesen összeomlik.
A Pokémon Go adatai is segítenek
Sok kutató szerint a világmodellek elengedhetetlenek lesznek a robotika jövőjéhez. Li, a World Labs alapítója szerint ezek a modellek elősegíthetik a mélytengert felfedező vagy egészségügyi segítséget nyújtó robotok fejlesztését. Jelenleg azonban szerényebbek az alkalmazások: a Pokémon Go készítői például a játékosok által gyűjtött több milliárd képet használják egy világmodell első darabjainak felépítéséhez, amely reményeik szerint a kézbesítő robotokat segítheti majd.
A Google DeepMind és a World Labs jelenleg olyan modellekre összpontosít, amelyek interaktív, 3D-s virtuális környezeteket generálnak szöveges, képi és videós utasítások kombinációjából. Ezek az eszközök egyszerűsíthetik a videojátékok és magával ragadó VR-élmények tervezését, de a LLM-ekhez képest korlátozottabb az alkalmazási körük.
A valódi áttörések valószínűleg az ilyen rendszerek rugalmas, intelligens ágensekbe való integrálásából származnak majd, amelyek képesek lesznek környezetük reprezentálására, tetteik következményeinek előrejelzésére és döntéshozatalra. A Niantic például 30 milliárd képet használ fel a Pokémon Go játékosoktól egy világmodell betanítására.