Kutatás2026. máj. 3.frissítve: 21:50

Közös fogalmi alapot épít a Stanford, hogy az AI ne legyen „borzalmas kollaborátor”

A jelenlegi generatív AI-modellek nehezen értik a komplex kreatív utasításokat, ami frusztrálóvá teszi a művészek számára az együttműködést.

Fotó: Fotó: National Institute of Allergy and Infectious Diseases / Unsplash

forrás: Hetzner: Stanford HAI·AI Forradalom szerk.·2026. május 3.

Megosztás

A Stanford Egyetem kutatói azon dolgoznak, hogy a generatív AI-modellek jobb kreatív partnerré váljanak, és ne csak automatizálják, hanem támogassák az emberi alkotófolyamatokat — írja az AI Forradalom. A cél egy „közös fogalmi alap” kialakítása, amely lehetővé teszi az AI és az ember közötti pontosabb kommunikációt a vizuális tartalom létrehozásában.

Az AI modellek jelenleg „borzalmas kollaborátorok” — állítja Maneesh Agrawala, a Stanford számítástechnika professzora és a projekt társvezető kutatója. A művészek gyakran szembesülnek azzal, hogy a szöveges utasítások alapján készült képek nem felelnek meg az elvárásaiknak, például egy konkrét elrendezésű ház leírásakor az AI egy teljesen más épületet generál. Agrawala szerint a kreatív munka folyamatos döntéshozatalt igényel, és ehhez az embernek és az AI-nak is ugyanazokat a fogalmakat kell értenie.

Az alkotás szövetének megértése

A Stanford csapata két irányból közelíti meg a problémát. Először is, kísérleteket végeznek, hogy jobban megértsék, hogyan működik az emberi együttműködés a vizuális tartalom létrehozásakor. Tanulmányozzák a chatnaplókat és vázlatokat, hogy elemezzék, miként kommunikálnak az emberek kreatív feladatok során. Judith Fan, a pszichológia adjunktusa szerint, ha olyan AI-rendszereket akarnak építeni, amelyek megértik az emberi gondolkodást, először az emberek közötti közös fogalmi alap kialakításából kell tanulniuk.

Vizuális nyelv kódolása

Másodszor, a csapat nyílt forráskódú AI-eszközöket fejleszt, amelyek az emberi kreatív kommunikációról szerzett tapasztalatokat alkalmazzák. Ilyen például a ControlNet, amely a szövegből képet generáló diffúziós modelleket tanítja a térbeli kompozícióra. Két különálló funkcióval, a blokkolással és a részletezéssel tükrözi, ahogy a művészek először egy durva vázlattal kezdenek, majd kidolgozzák a részleteket. Ezzel az eszközzel a művészek pontosabban irányíthatják a modelleket a kívánt elrendezés felé.

Egy másik eszköz, a FramePack, 3D videók generálását teszi lehetővé szöveges utasítások alapján, több jelenetes történetmeséléshez. Ez a modell megtanulja, hogy a jeleneteket fontosságuk szerint rangsorolja, hasonlóan ahogyan egy ember dolgozna. Emellett egy neuro-szimbolikus AI megközelítést is vizsgálnak, amely neurális hálózatokat kombinál érvelési képességekkel, növelve az átláthatóságot és leküzdve a „fekete doboz” AI korlátait. Ezen elvek alapján egy vizuális jelenetkódoló nyelvet fejlesztettek ki, amely természetes nyelvi promptokból kódsorokat generál, amelyek végrehajtásával 3D jelenetek hozhatók létre. A kutatócsoport jelenleg a Roblox játékplatformmal dolgozik együtt, hogy a játékosok egyedi 3D objektumokat generálhassanak szöveges promptokból, miközben betartják a játékkorlátozásokat, 2024 első negyedévében tervezik a projekt első eredményeinek bemutatását.

tetszett a cikk? oszd meg →

Megosztás