Új módszer méri az AI-k értelmezési hibáit kormányzati adatokon
Az új módszer a modellek közötti eltéréseket használja fel a félreértések diagnosztizálására, és az emberi felülvizsgálatot a valóban kétértelmű bejegyzések felé irányítja.

Szövetségi ügynökségek vetnek be nagy nyelvi modelleket (LLM) a közösségi kommentek kategorizálására, ahol a modell által kialakított kép alakítja a politikai döntéshozók látókörét és az érvek súlyát. A standard értékelés, amely egy kis validált adathalmazra támaszkodik, nem képes kimutatni, ha különböző modellek lényegesen eltérő kategorizálásokat produkálnak ugyanarra a bemenetre.
Az Interpretive Audit folyamat nevű új megközelítés a több modell közötti eltérést diagnosztikus jelként kezeli a komplex értelmezési feladatoknál. Ez az emberi felülvizsgálatot a valóban kétértelmű közösségi bemenetek felé irányítja. A kutatók 1260 USDA-docketre érkezett közösségi kommentet elemeztek négy LLM segítségével.
Kapcsolódó: LLM alapú szövegannotáció
A szakértői értékelés határai
Az eredmények szerint a modellek közötti tematikus eltérés meghaladta a modellen belüli promptvariációt. Egy szakértői értékelési séma ugyan elnyomta a mély értelmezési eltéréseket, de nem oldotta meg azokat. Egy kétszakaszos címkézési tanulmányban, amely 40 kommentből álló mintán zajlott, négy LLM és egy emberi annotátor dolgozott.
Kapcsolódó: AI-felelősség magyarázat
Emberek és gépek együttműködése
A független címkézés és az egymás munkájának megtekintése utáni revízió során a revíziós magatartás eltért a címkézők között. Az emberi annotátor revíziói gyakran olyan kereteket vezettek be, amelyek hiányoztak az együttes kimenetből. A kutatók szerint az eltérés-alapú értékelés szükséges kiegészítője a pontossági metrikáknak a LLM-asszisztált értelmező kódolásban, és a következő lépés a 2024. évi USDA-docketre érkezett közösségi kommentek elemzése lesz az Interpretive Audit folyamattal.
Kapcsolódó: kvalitatív LLM kutatás