NVIDIA és Coursera támogatja a szintetikus adatok létrehozását
A 700-770 soros Python konfigurációs modul egyszerre szolgál időalapú gyártási szimulátor specifikációjaként és futásidejű tartományi sémaként az AI-analitikai eszközök számára.

A gyártási környezetekben bevetett nagyméretű nyelvi modell (LLM) alapú AI-ügynökök validálásához feltöltött, séma-helyes adatokra van szükség. Azonban a termelési MES (Manufacturing Execution System) adatok általában szabadalmaztatottak, adatvédelmi korlátozásokkal terheltek és gyártóspecifikusak — írja az arXiv-on megjelent tanulmány.
A kutatók a Template-as-Ontology elv bevezetésével a szimuláció és az AI-eszközök közötti strukturális összehangolás integráció helyett már a tervezés fázisában garantált legyen. A tanulmány formálisan is definiálja a tartományi sablont, mint egy típusos relációs konfigurációs sémát.
A szimuláció és az AI-eszközök közötti harmónia
Egy ötrétegű adatfolyam — szimuláció, PostgreSQL adatbázis, CDC/Iceberg lakehouse, csillagséma és 12 paraméterezett AI-eszköz — generál oksági szempontból koherens, MES-formátumú adatokat. Ez a rendszer négy gyártási műveleti tartományban, 66 entitástípuson keresztül képes adatokat előállítani.
A szintetikus adatok kulcsfontosságúak a gépi tanulási algoritmusok képzéséhez, különösen azokban az esetekben, ahol a valós adatok hozzáférése korlátozott, például az orvosi kutatásban vagy az autonóm járművek fejlesztésében.
A gyártási minőségű szintetikus adatok új korszaka
A NVIDIA NeMo Data Designer egy rugalmas keretrendszert biztosít a gyártási minőségű szintetikus adatok előállításához. A Template-as-Ontology elv így egy új utat nyit a gyártási AI-rendszerek gyorsabb és megbízhatóbb validációja felé.
Az NVIDIA és a Coursera támogatása a szintetikus adatok létrehozásában 2024-ben kezdődött, azzal a céllal, hogy a fejlesztők számára könnyebb legyen a gyártási minőségű szintetikus adatok előállítása.