MultiSoc-4D: A bengáli közösségi média adatbázis leplezi le a LLM-ek hibáját
A 58 ezer bejegyzést tartalmazó adatbázis négy dimenzió mentén — kategória, hangulat, gyűlöletbeszéd és szarkazmus — annotálja a tartalmakat.

A MultiSoc-4D, egy új bengáli közösségi média adatbázis, a nagyméretű nyelvi modellek (LLM) egy eddig kevéssé vizsgált viselkedését tárja fel: a zárt halmazú utasítások feldolgozásakor jelentkező címke-összeomlást — írja az ArXiv-on megjelent tanulmány.
A kutatók a MultiSoc-4D segítségével azt vizsgálták, hogyan teljesítenek a LLM-ek az alacsony erőforrású nyelvek, például a bengáli esetében. A teljesítményteszt több mint 58 ezer közösségi média kommentet tartalmaz hat különböző forrásból, amelyeket négy szempontból is címkéztek: kategória, hangulat, gyűlöletbeszéd és szarkazmus.
A LLM-ek hibáinak felfedezése
A vizsgálathoz egy strukturált folyamatot alkalmaztak, ahol a ChatGPT, Gemini, Claude és Grok modellek külön-külön annotáltak részeket, miközben egy közös, 20%-os validációs halmazt használtak. Ennek során felfedezték az úgynevezett „utasítás-indukálta címke-összeomlás” jelenségét, ahol a LLM-ek szisztematikusan az alapértelmezett címkék (Egyéb, Semleges, Nincs) felé torzítanak.
Az alulreprezentált kategóriák kihívásai
Például a LLM-ek az esetek 79%-ában és 75%-ában nem észleltek bizonyos típusú gyűlöletbeszédet és szarkazmust. A kutatás 2024. március 10-én történő publikálása óta a Google és a Meta már elkezdte a LLM-ek fejlesztését a MultiSoc-4D adatbázis felhasználásával.