Frissítve: 2 órája·Ma: 4
Kutatás
AI által generált szöveg

Új AnnE rendszerrel javítják az AI biztonsági annotációk konzisztenciáját

Az AnnE rendszer képes megkülönböztetni az operatív hibákat, a szakpolitikai kétértelműséget és az értékpluralizmust, amelyek az annotátorok eltérő megítéléséhez vezetnek.

Új AnnE rendszerrel javítják az AI biztonsági annotációk konzisztenciáját
Fotó: National Cancer Institute / Unsplash
Forrás: ArXiv AISzerző: AI Forradalom szerk.
Megosztás

Új módszert vezettek be az AI biztonsági annotációk konzisztenciájának javítására, amely az annotátorok közötti véleménykülönbségek forrását azonosítja — írja az ArXiv-en megjelent kutatás.

A biztonsági irányelvek határozzák meg, mi minősül biztonságos vagy nem biztonságos AI kimenetnek, ami alapvető fontosságú az adatok címkézésében és a modellek fejlesztésében. Azonban az annotátorok gyakran eltérően ítélik meg ezeket a kimeneteket, ami megnehezíti a megbízható adathalmazok létrehozását.

A biztonsági annotációk labirintusában

Az AnnE (Annotator Safety Policy with Interpretability) rendszer célja, hogy megértse ezeket az eltéréseket. Az operatív hibák (az annotátorok félreértik a feladatot), a szakpolitikai kétértelműség (az irányelvek homályosak) és az értékpluralizmus (eltérő nézőpontok a biztonságról) mind hozzájárulhatnak a véleménykülönbségekhez. Ezeknek a forrásoknak a megkülönböztetése kulcsfontosságú, hiszen más-más megoldást igényelnek: minőségellenőrzést, irányelv-pontosítást vagy a különböző nézőpontok beépítését.

A megoldás kulcsa

Az annotátorok közvetlen megkérdezése a döntéseik okairól költséges és megbízhatatlan, mivel az önbevallott indokok gyakran nem tükrözik a tényleges döntési folyamatokat. Az AnnE rendszer éppen ezt a problémát igyekszik orvosolni, anélkül, hogy növelné az annotációs terhet. Az Anthropic interpretálhatósági csapata is hasonló célokat követ, a nagyméretű nyelvi modellek belső működésének megértésével igyekszik megalapozni az AI biztonságot és a pozitív kimeneteket. A kutatás 2024-ben várható folytatása az AnnE rendszer további fejlesztését és a nagyobb adathalmazokon történő alkalmazását célozza.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom