Új mérőszám a szabályalapú AI értékelésére: a Defensibility Index
A hagyományos értékelési módszerek gyakran tévesen büntetik a logikailag helyes, de eltérő döntéseket, amit a kutatók "Megállapodási Csapdának" neveznek.

Új értékelési keretrendszert mutatott be az ArXiv-en megjelent tanulmány, amely a szabályalapú AI-rendszerek, például a tartalommoderációs algoritmusok pontosságát méri. A kutatók szerint a jelenlegi módszerek hibásan kezelik azokat az eseteket, amikor több döntés is logikailag konzisztens a szabályzattal — írja a tanulmány.
A "Megállapodási Csapda" jelenségét azonosították, ahol az egyetértési metrikák tévedésként könyvelik el az érvényes, de eltérő döntéseket, és hibásan jellemzik a kétértelműséget. Ezt a problémát orvosolja a Defensibility Index (DI) és az Ambiguity Index (AI) bevezetése, amelyek a politikai alapú korrektséget formalizálják.
A kutatók a Probabilistic Defensibility Signal (PDS) módszert is bevezették, amely az auditmodell token logprobjait használja a gondolkodás stabilitásának becslésére, további ellenőrzési lépések nélkül. Ez a jelzés a nagyméretű nyelvi modellek (LLM) érvelési nyomait kormányzási jelzésként hasznosítja, nem pedig egyszerű osztályozási kimenetként.
Az auditmodell feladata nem az, hogy eldöntse, egy tartalom sérti-e a szabályzatot, hanem hogy ellenőrizze, a javasolt döntés logikusan levezethető-e a szabályhierarchiából. A keretrendszert több mint 193 000 szabályalapú AI döntésen validálták a kutatók.