Kutatás2026. ápr. 26.frissítve: 06:30

Új mérőszám a szabályalapú AI értékelésére: a Defensibility Index

A hagyományos értékelési módszerek gyakran tévesen büntetik a logikailag helyes, de eltérő döntéseket, amit a kutatók "Megállapodási Csapdának" neveznek.

Fotó: Albert Stoynov / Unsplash

forrás: ArXiv AI·AI Forradalom szerk.·2026. április 26.

Megosztás

Új értékelési keretrendszert mutatott be az ArXiv-en megjelent tanulmány, amely a szabályalapú AI-rendszerek, például a tartalommoderációs algoritmusok pontosságát méri. A kutatók szerint a jelenlegi módszerek hibásan kezelik azokat az eseteket, amikor több döntés is logikailag konzisztens a szabályzattal — írja a tanulmány.

A "Megállapodási Csapda" jelenségét azonosították, ahol az egyetértési metrikák tévedésként könyvelik el az érvényes, de eltérő döntéseket, és hibásan jellemzik a kétértelműséget. Ezt a problémát orvosolja a Defensibility Index (DI) és az Ambiguity Index (AI) bevezetése, amelyek a politikai alapú korrektséget formalizálják.

A kutatók a Probabilistic Defensibility Signal (PDS) módszert is bevezették, amely az auditmodell token logprobjait használja a gondolkodás stabilitásának becslésére, további ellenőrzési lépések nélkül. Ez a jelzés a nagyméretű nyelvi modellek (LLM) érvelési nyomait kormányzási jelzésként hasznosítja, nem pedig egyszerű osztályozási kimenetként.

Az auditmodell feladata nem az, hogy eldöntse, egy tartalom sérti-e a szabályzatot, hanem hogy ellenőrizze, a javasolt döntés logikusan levezethető-e a szabályhierarchiából. A keretrendszert több mint 193 000 szabályalapú AI döntésen validálták a kutatók.

tetszett a cikk? oszd meg →

Megosztás