Modellek & LLM2026. ápr. 25.frissítve: 11:30

OpenAI: 100 millió dollár a világmodellekbe

Az OpenAI 100 millió dollárt fektet be a világmodellek kutatásába. A cél egy olyan AI létrehozása, amely a fizikai világban is képes hatékonyan navigálni.

Fotó: Paul Becker / Unsplash

forrás: MIT Technology Review AI·AI Forradalom szerk.·2026. április 25.

Megosztás

A mesterséges intelligencia rendszerek lenyűgöző digitális képességeket mutattak, de a fizikai világban továbbra is az ember dominál. Egy olyan AI létrehozása, amely regényt ír vagy alkalmazást kódol, sokkal könnyebb, mint egy olyané, amely ruhát hajtogat vagy várost navigál — ehhez sok kutató szerint úgynevezett világmodellekre van szükség, írja a MIT Technology Review.

A világmodellek ötlete nem új, de a Google DeepMind és a Stanford professzora, Fei-Fei Li vezette World Labs legújabb fejlesztései, valamint Yann LeCun Meta-tól való távozása, hogy egy világmodell-fókuszú startupot alapítson, ismét a figyelem középpontjába helyezték őket. Az OpenAI is beszáll a versenybe: a leállított Sora videóalkalmazás erőforrásait a hosszútávú világmodellezési kutatásokra csoportosítja át.

Li és LeCun szerint a világmodellek segítenek majd a kutatóknak leküzdeni az LLM-ek ismert korlátait, és valóra váltani az AI robotikában rejlő ígéretét. Bár a „világmodell” definíciója változó, mindegyik a külső világ intelligens rendszerek általi reprezentációjára összpontosít. Az LLM-ek „világértése” törékenynek bizonyult: egy New York-i taxizások adatbázisán képzett modell például megbízhatóan navigál Manhattanben, de ha kitérőre kényszerítik, teljesen összeomlik.

A Pokémon Go adatai is segítenek

Sok kutató szerint a világmodellek elengedhetetlenek lesznek a robotika jövőjéhez. Li, a World Labs alapítója szerint ezek a modellek elősegíthetik a mélytengert felfedező vagy egészségügyi segítséget nyújtó robotok fejlesztését. Jelenleg azonban szerényebbek az alkalmazások: a Pokémon Go készítői például a játékosok által gyűjtött több milliárd képet használják egy világmodell első darabjainak felépítéséhez, amely reményeik szerint a kézbesítő robotokat segítheti majd.

A Google DeepMind és a World Labs jelenleg olyan modellekre összpontosít, amelyek interaktív, 3D-s virtuális környezeteket generálnak szöveges, képi és videós utasítások kombinációjából. Ezek az eszközök egyszerűsíthetik a videojátékok és magával ragadó VR-élmények tervezését, de az LLM-ekhez képest korlátozottabb az alkalmazási körük.

A valódi áttörések valószínűleg az ilyen rendszerek rugalmas, intelligens ágensekbe való integrálásából származnak majd, amelyek képesek lesznek környezetük reprezentálására, tetteik következményeinek előrejelzésére és döntéshozatalra. A Niantic például 30 milliárd képet használ fel a Pokémon Go játékosoktól egy világmodell betanítására.

tetszett a cikk? oszd meg →

Megosztás