Veszélyes vizuális injekciók tévesztik meg az AI-ügynököket — 7 LVLM modell is elbukott
A Vision-Language Agentic Systems (VLAS) rendszerek, amelyek a valós világot érzékelik és értelmezik, nem képesek megbízhatóan különbséget tenni a hasznos környezeti jelzések és a szándékosan félrevezető vizuális parancsok között.

A nagy látás-nyelv modelleken (LVLM) alapuló, beágyazott Vision-Language Agentic Systems (VLAS) rendszerek egyre fejlettebbek, ám egy új kutatás szerint súlyos biztonsági kockázattal néznek szembe: nem tudják megkülönböztetni a valós környezeti jeleket a rosszindulatú vizuális injekcióktól — írja az ArXiv CV.
A tanulmányban a kutatók ezt a problémát „bizalmi határzavar” (trust boundary confusion) néven azonosították. A VLAS-rendszereknek reagálniuk kell a legitim környezeti jelzésekre, például a közlekedési lámpákra, ugyanakkor ellenállónak kell lenniük a megtévesztő, felhasználói szándékot felülíró vizuális parancsokkal szemben.
A bizalmi határzavar sziklája
A viselkedés tanulmányozására egy kettős szándékú adathalmazt és értékelési keretrendszert dolgoztak ki. Ennek segítségével kimutatták, hogy a jelenlegi LVLM-alapú ügynökök nem képesek megbízhatóan egyensúlyozni ezen a téren: vagy figyelmen kívül hagyják a hasznos jeleket, vagy követik a káros utasításokat. A kutatók hét LVLM-ügynököt vizsgáltak meg, és mindegyik modell megbukott a teszten.
Vizuális védvonalak
A sebezhetőségek enyhítésére a kutatók egy dekuplált, többügynökös keretrendszert javasoltak, amely a rendszert specializált jelzés (észlelés), bizalom (ítélet) és végrehajtás (LVLM) síkokra bontja. A vizsgálat 2024. április 15-én fejeződött be.