Google Simula: Szintetikus adatkészleteket generál a speciális AI-nak

A Google és az EPFL kutatói bemutatták a Simula nevű, érvelés-központú keretrendszert, amely szintetikus adatok generálására és értékelésére szolgál. A rendszer prioritásként kezeli az átláthatóságot, a finomhangolható kontrollt és a skálázhatóságot — írja a MarkTechPost.

A speciális AI-modellek betanítása egyre inkább ütközik az adatok hiányába. Míg az általános modellekhez az internetről származó szövegek és képek elegendőek voltak, a következő generációs áttörésekhez – például kiberbiztonság, jogi érvelés vagy egészségügy terén – olyan adatokra van szükség, amelyek nem állnak rendelkezésre elegendő mennyiségben, vagy adatvédelmi okokból nem hozzáférhetők.

A szintetikus adatok új dimenziója

A Simula négy, elkülönülő és kontrollálható lépésre bontja az adatgenerálási folyamatot, mindegyik egy specifikus adatjellemzőt céloz. Az első lépés a globális diverzitást kezeli hierarchikus taxonómiák segítségével. Egy többmodális modell (M3) az adatkészlet leírása alapján azonosítja a domain fő variációs faktorait, például egy kiberbiztonsági adatkészlet esetében a támadástípust vagy a fenyegető szereplőt. Ezekből a faktorokból hierarchikus taxonómiafa épül fel.

A második lépés a lokális diverzitásért felel. A taxonómiai csomópontok mintavételezett kombinációit, az úgynevezett „mixeket” átadják egy M3-nak, hogy „meta-promptokat” generáljon. A harmadik lépés a komplexitás növelése: a meta-utasítások egy felhasználó által konfigurálható része egy komplexitási lépésen megy keresztül, amely arra ösztönzi a M3-at, hogy növelje a generált meta-utasítások és kimenetek komplexitását, miközben fenntartja az összes többi követelményt.

Minőség a fókuszban

A negyedik lépés a minőséget javítja egy „duális kritikus” megközelítéssel. Ahelyett, hogy egyszer kérdezné meg a modellt, hogy egy generált válasz helyes-e, a Simula függetlenül lekérdezi a modellt arról, hogy a válasz helyes-e, és hogy helytelen-e. Ez a duális ellenőrzési mechanizmus csökkenti a szikofancia-torzítást, vagyis a LLM-ek azon hajlamát, hogy egyetértsenek a hihetőnek tűnő kimenetekkel.

A kutatócsoport a Simula rendszert a Gemini 2.5 Flash tanító modell és a Gemma 3 4B tanuló modell segítségével tesztelte. A teljes Simula rendszer – amely magában foglalja a globális és lokális diverzifikációt, a komplexitás növelését és a kritikát – következetesen felülmúlta az egyszerűbb alapkonfigurációkat az összes adatkészleten és adatméreten. A GSM8k adatkészleten a magas komplexitású felosztás 10%-os pontosságnövekedést eredményezett a 64K adatpontnál, 2024. január elsejével kezdődő tesztek során.