ArXiv: 1 kritikus sebezhetőség az AI-ügynököknél
Az AI-ügynökök által használt külső eszközök szándékosan hamis információkat szolgáltathatnak, a jelenlegi értékelési módszerek pedig nem vizsgálják ezt a lehetőséget. Ez a hiányosság komoly biztonsági kockázatot jelent.

Kritikus sebezhetőséget azonosítottak az ArXiv kutatói az eszköz-integrált AI-ügynököknél, amely lehetővé teszi a modellek félrevezetését hamisított külső adatokkal — írja az ArXiv tanulmánya. Ez a „Trust Gap” néven emlegetett hiányosság azt jelenti, hogy az ügynököket a teljesítményük alapján értékelik, nem pedig a szkepticizmusuk alapján.
A kutatók ezt a sérülékenységet Adversarial Environmental Injection (AEI) néven formalizálták. Ez egy olyan fenyegetési modell, ahol a támadók kompromittálják az eszközök kimeneteit, hogy megtévesztsék az ügynököket. Az AEI lényegében környezeti megtévesztést jelent: egy „hamis világot” épít fel mérgezett keresési eredményekből és hamisított referenciahálózatokból a gyanútlan ügynökök köré.
A sebezhetőség operacionalizálására a POTEMKIN nevű, Model Context Protocol (MCP)-kompatibilis tesztkörnyezetet fejlesztették ki. Ezzel a plug-and-play rendszerrel tesztelhető a modellek robusztussága. Két fő támadási felületet azonosítottak: a „Illúzió” (széleskörű támadások) a lekérdezéseket mérgezi, hogy a modellek téves ismeretek felé sodródjanak.
A Google új AI keresője például már most is irányított át felhasználókat rosszindulatú linkekre, amelyek rosszindulatú szoftvereket tartalmaztak — közölte a Wiz. Az AI-mérgezés egy olyan kiberbiztonsági támadás, amely során a támadók hamis, rosszindulatú vagy manipulált információkat juttatnak az AI-rendszerekbe, ezzel torzítva azok tanulását, ajánlásait vagy a felhasználóknak adott válaszait.