Új AnnE rendszerrel javítják az AI biztonsági annotációk konzisztenciáját
Az AnnE rendszer képes megkülönböztetni az operatív hibákat, a szakpolitikai kétértelműséget és az értékpluralizmust, amelyek az annotátorok eltérő megítéléséhez vezetnek.

Új módszert vezettek be az AI biztonsági annotációk konzisztenciájának javítására, amely az annotátorok közötti véleménykülönbségek forrását azonosítja — írja az ArXiv-en megjelent kutatás.
A biztonsági irányelvek határozzák meg, mi minősül biztonságos vagy nem biztonságos AI kimenetnek, ami alapvető fontosságú az adatok címkézésében és a modellek fejlesztésében. Azonban az annotátorok gyakran eltérően ítélik meg ezeket a kimeneteket, ami megnehezíti a megbízható adathalmazok létrehozását.
A biztonsági annotációk labirintusában
Az AnnE (Annotator Safety Policy with Interpretability) rendszer célja, hogy megértse ezeket az eltéréseket. Az operatív hibák (az annotátorok félreértik a feladatot), a szakpolitikai kétértelműség (az irányelvek homályosak) és az értékpluralizmus (eltérő nézőpontok a biztonságról) mind hozzájárulhatnak a véleménykülönbségekhez. Ezeknek a forrásoknak a megkülönböztetése kulcsfontosságú, hiszen más-más megoldást igényelnek: minőségellenőrzést, irányelv-pontosítást vagy a különböző nézőpontok beépítését.
A megoldás kulcsa
Az annotátorok közvetlen megkérdezése a döntéseik okairól költséges és megbízhatatlan, mivel az önbevallott indokok gyakran nem tükrözik a tényleges döntési folyamatokat. Az AnnE rendszer éppen ezt a problémát igyekszik orvosolni, anélkül, hogy növelné az annotációs terhet. Az Anthropic interpretálhatósági csapata is hasonló célokat követ, a nagyméretű nyelvi modellek belső működésének megértésével igyekszik megalapozni az AI biztonságot és a pozitív kimeneteket. A kutatás 2024-ben várható folytatása az AnnE rendszer további fejlesztését és a nagyobb adathalmazokon történő alkalmazását célozza.