NVIDIA: 6 millió szintetikus koreai személyiség az AI-ügynököknek
A NVIDIA egy új, 6 millió szintetikus koreai személyiséget tartalmazó adatkészlettel segíti az AI-ügynököket, hogy jobban megértsék a helyi kulturális árnyalatokat és elkerüljék a hibás interakciókat.

A legtöbb mai AI-ügynök angol nyelvű webes adatokon tanult, így hiányzik belőlük a koreai kulturális kontextus, a nyelvi udvariassági formák és a regionális foglalkozási minták megértése — írja a Nvidia Developer Blog.
Ezt a problémát orvosolja a Nemotron-Personas-Korea adatkészlet, amely 6 millió teljesen szintetikus személyiséget biztosít. Ezek az adatok hivatalos koreai statisztikákon és olyan forrásokból származó magadatokon alapulnak, mint a Koreai Statisztikai Információs Szolgálat (KOSIS), a Koreai Legfelsőbb Bíróság és a Nemzeti Egészségbiztosítási Szolgálat. A NAVER Cloud is hozzájárult magadatokkal és szakértelemmel a tervezés során.
Minden személyiség demográfiailag pontos, de nem tartalmaz személyazonosításra alkalmas információkat (PII), figyelembe véve Korea személyes adatok védelméről szóló törvényét (PIPA). Az adatkészletet a NeMo Data Designer, a NVIDIA nyílt forráskódú szintetikus adatrendszere generálta. A folyamat egy Probabilistic Graphical Model (valószínűségi grafikus modell) és a Gemma-4-31B modell kombinációjával hozza létre a koreai nyelvű narratívákat.
A koreai kultúra szövetének szintetikus szálai
A Nemotron-Personas-Korea a Nemotron-Personas gyűjtemény legújabb tagja, amely már az USA-ra, Japánra, Indiára, Szingapúrra, Brazíliára és Franciaországra is kiterjed. Ez lehetővé teszi többnyelvű ügynökök fejlesztését, amelyek a koreai felhasználókat más piacokkal együtt szolgálják ki.
Ügynökök a kultúra határain innen és túl
A NVIDIA szerint az adatkészlet segítségével az AI-ügynökök jobban megértik a koreai udvariassági formákat, a foglalkozási mintákat és a kulturális normákat, így elkerülhetők a téves interakciók. A személyiségréteg keretrendszer-független, és különböző ügynök-keretrendszerekkel is telepíthető, például a NVIDIA NIM vagy a NVIDIA API segítségével. A Nemotron-Personas-Korea adatkészlet 2024-ben lesz elérhető a fejlesztők számára.