ÉlőUtoljára: 1 órájaMa: 18
Kutatásfrissítve: 13:30

Új módszer méri az AI-k értelmezési hibáit kormányzati adatokon

Az új módszer a modellek közötti eltéréseket használja fel a félreértések diagnosztizálására, és az emberi felülvizsgálatot a valóban kétértelmű bejegyzések felé irányítja.

Új módszer méri az AI-k értelmezési hibáit kormányzati adatokon
Fotó: Fotó: Kier in Sight Archives / Unsplash
forrás: ArXiv AI·AI Forradalom szerk.·
Megosztás

Szövetségi ügynökségek vetnek be nagy nyelvi modelleket (LLM) a közösségi kommentek kategorizálására, ahol a modell által kialakított kép alakítja a politikai döntéshozók látókörét és az érvek súlyát. A standard értékelés, amely egy kis validált adathalmazra támaszkodik, nem képes kimutatni, ha különböző modellek lényegesen eltérő kategorizálásokat produkálnak ugyanarra a bemenetre.

Az Interpretive Audit folyamat nevű új megközelítés a több modell közötti eltérést diagnosztikus jelként kezeli a komplex értelmezési feladatoknál. Ez az emberi felülvizsgálatot a valóban kétértelmű közösségi bemenetek felé irányítja. A kutatók 1260 USDA-docketre érkezett közösségi kommentet elemeztek négy LLM segítségével.

Kapcsolódó: LLM alapú szövegannotáció

A szakértői értékelés határai

Az eredmények szerint a modellek közötti tematikus eltérés meghaladta a modellen belüli promptvariációt. Egy szakértői értékelési séma ugyan elnyomta a mély értelmezési eltéréseket, de nem oldotta meg azokat. Egy kétszakaszos címkézési tanulmányban, amely 40 kommentből álló mintán zajlott, négy LLM és egy emberi annotátor dolgozott.

Kapcsolódó: AI-felelősség magyarázat

Emberek és gépek együttműködése

A független címkézés és az egymás munkájának megtekintése utáni revízió során a revíziós magatartás eltért a címkézők között. Az emberi annotátor revíziói gyakran olyan kereteket vezettek be, amelyek hiányoztak az együttes kimenetből. A kutatók szerint az eltérés-alapú értékelés szükséges kiegészítője a pontossági metrikáknak a LLM-asszisztált értelmező kódolásban, és a következő lépés a 2024. évi USDA-docketre érkezett közösségi kommentek elemzése lesz az Interpretive Audit folyamattal.

Kapcsolódó: kvalitatív LLM kutatás

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom