Közös fogalmi alapot épít a Stanford, hogy az AI ne legyen „borzalmas kollaborátor”
A jelenlegi generatív AI-modellek nehezen értik a komplex kreatív utasításokat, ami frusztrálóvá teszi a művészek számára az együttműködést.

A Stanford Egyetem kutatói azon dolgoznak, hogy a generatív AI-modellek jobb kreatív partnerré váljanak, és ne csak automatizálják, hanem támogassák az emberi alkotófolyamatokat — írja az AI Forradalom. A cél egy „közös fogalmi alap” kialakítása, amely lehetővé teszi az AI és az ember közötti pontosabb kommunikációt a vizuális tartalom létrehozásában.
Az AI modellek jelenleg „borzalmas kollaborátorok” — állítja Maneesh Agrawala, a Stanford számítástechnika professzora és a projekt társvezető kutatója. A művészek gyakran szembesülnek azzal, hogy a szöveges utasítások alapján készült képek nem felelnek meg az elvárásaiknak, például egy konkrét elrendezésű ház leírásakor az AI egy teljesen más épületet generál. Agrawala szerint a kreatív munka folyamatos döntéshozatalt igényel, és ehhez az embernek és az AI-nak is ugyanazokat a fogalmakat kell értenie.
Az alkotás szövetének megértése
A Stanford csapata két irányból közelíti meg a problémát. Először is, kísérleteket végeznek, hogy jobban megértsék, hogyan működik az emberi együttműködés a vizuális tartalom létrehozásakor. Tanulmányozzák a chatnaplókat és vázlatokat, hogy elemezzék, miként kommunikálnak az emberek kreatív feladatok során. Judith Fan, a pszichológia adjunktusa szerint, ha olyan AI-rendszereket akarnak építeni, amelyek megértik az emberi gondolkodást, először az emberek közötti közös fogalmi alap kialakításából kell tanulniuk.
Vizuális nyelv kódolása
Másodszor, a csapat nyílt forráskódú AI-eszközöket fejleszt, amelyek az emberi kreatív kommunikációról szerzett tapasztalatokat alkalmazzák. Ilyen például a ControlNet, amely a szövegből képet generáló diffúziós modelleket tanítja a térbeli kompozícióra. Két különálló funkcióval, a blokkolással és a részletezéssel tükrözi, ahogy a művészek először egy durva vázlattal kezdenek, majd kidolgozzák a részleteket. Ezzel az eszközzel a művészek pontosabban irányíthatják a modelleket a kívánt elrendezés felé.
Egy másik eszköz, a FramePack, 3D videók generálását teszi lehetővé szöveges utasítások alapján, több jelenetes történetmeséléshez. Ez a modell megtanulja, hogy a jeleneteket fontosságuk szerint rangsorolja, hasonlóan ahogyan egy ember dolgozna. Emellett egy neuro-szimbolikus AI megközelítést is vizsgálnak, amely neurális hálózatokat kombinál érvelési képességekkel, növelve az átláthatóságot és leküzdve a „fekete doboz” AI korlátait. Ezen elvek alapján egy vizuális jelenetkódoló nyelvet fejlesztettek ki, amely természetes nyelvi promptokból kódsorokat generál, amelyek végrehajtásával 3D jelenetek hozhatók létre. A kutatócsoport jelenleg a Roblox játékplatformmal dolgozik együtt, hogy a játékosok egyedi 3D objektumokat generálhassanak szöveges promptokból, miközben betartják a játékkorlátozásokat, 2024 első negyedévében tervezik a projekt első eredményeinek bemutatását.