Katastrofálisan veszélyes a „csendes szűrés” az új Partial Evidence Bench szerint

Vállalati környezetben egyre gyakrabban működnek olyan AI-ügynökök, amelyek korlátozott hozzáférésű adatkörnyezetekben, delegált munkafolyamatokban és szabályozott rendszerekben tevékenykednek. Ezekben az esetekben a hozzáférés-szabályozás ugyan helyesen működhet, ám a rendszer mégis olyan válaszokat produkálhat, amelyek teljesnek tűnnek, holott lényeges információk hiányoznak a felhasználó jogosultsági körén kívülről — írja az arXiv-on megjelent tanulmány.

Ezt a hibamódot méri a frissen bemutatott Partial Evidence Bench, amely egy determinisztikus teljesítményteszt. A tesztplatform három forgatókönyv-családot tartalmaz: átvilágítást, megfelelőségi auditot és biztonsági incidensekre adott válaszokat. Összesen 72 feladatot ölel fel, melyek ACL-particionált korpuszokkal, oracle teljes válaszokkal, oracle jogosult nézetű válaszokkal, oracle teljességi ítéletekkel és strukturált hiányosság-jelentési oracle-ökkel dolgoznak.

A szűrés árnyalatai

A teljesítményteszt négy szempont alapján értékeli a rendszereket: a válaszok helyessége, a teljesség tudatossága, a hiányosság-jelentések minősége és a nem biztonságos teljességi viselkedés. Az alapértelmezett tesztek szerint a „csendes szűrés” katasztrofálisan nem biztonságos.

A fejlesztés iránya

A Partial Evidence Bench (arXiv:2605.05379v1) célja, hogy segítse a fejlesztőket az AI-ügynökök megbízhatóságának növelésében a komplex vállalati környezetekben. A tesztplatform 2024-ben várható továbbfejlesztése az Oracle vállalat részvételével történik.