Modellek & LLM2026. márc. 30.frissítve: 20:06

A BeSafe-Bench megmutatja, milyen biztonsági kockázatokat rejtnek a mesterséges intelligens ügynökök

A kutatók szerint a 13 legnépszerűbb ügynök közül egy sem képes 40%-nál több feladatot biztonságosan elvégezni.

Fotó: Fotó: Syed kumail Haider / Unsplash

forrás: ArXiv AI·AI Forradalom szerk.·2026. március 30.

Megosztás

A BeSafe-Bench kutatás feltárta, hogy a 13 legnépszerűbb mesterséges intelligens ügynök közül egy sem képes 40%-nál több feladatot biztonságosan elvégezni. A kutatók szerint ez komoly biztonsági kockázatokat jelent, különösen akkor, ha ezeket az ügynököket autonóm döntéshozókként alkalmazzák.

A BeSafe-Bench benchmark egy komoly lépés a mesterséges intelligens ügynökök biztonságának értékelésében. A kutatásban a szakemberek négy képviselői területen - Web, Mobile, Embodied VLM és Embodied VLA - értékelték az ügynökök teljesítményét, és kilenc kategóriába sorolták a biztonsági kockázatokat. A vizsgálat során a kutatók egy hibrid értékelési keretet használtak, amely kombinálja a szabályalapú ellenőrzéseket a nagy multimodális modellek (LMM) alapú értékeléssel.

Az eredmények aggasztóak: a legjobb teljesítményt nyújtó ügynök sem képes 40%-nál több feladatot biztonságosan elvégezni, és a feladatok magas szintű teljesítménye gyakran együtt jár súlyos biztonsági sértésekkel. Ez aláhúzza annak fontosságát, hogy a mesterséges intelligens ügynökök biztonságát javítsák, mielőtt azokat valós környezetben alkalmaznák.

Az ügynökök biztonsági kockázatainak feltárása fontos lépés a felelősségteljes mesterséges intelligencia fejlesztése felé. A BeSafe-Bench kutatás rávilágít arra, hogy a jelenlegi ügynökök nem elég biztonságosak, és további fejlesztésekre van szükség ahhoz, hogy azokat biztonságosan lehessen alkalmazni a valóságban.

A következő lépés az lesz, hogy a kutatók és a fejlesztők együttműködjenek annak érdekében, hogy a mesterséges intelligens ügynökök biztonságát javítsák. Ennek érdekében további kutatásokra és fejlesztésekre lesz szükség, hogy a jelenlegi ügynököket biztonságosabbá tegyék, és új, biztonságosabb ügynököket fejlesszenek ki.

tetszett a cikk? oszd meg →

Megosztás