Biztonság2026. máj. 28.frissítve: 06:10

Múlt idejű támadással törnek fel a képgeneráló AI-k — 83%-os sikerrátával

A PAST2HARM keretrendszer múlt idejű átfogalmazásokkal támadja a multimodal AI-kat, 83-100%-os sikerrátával törve át a biztonsági korlátokat.

Fotó: kartik programmer / Unsplash

forrás: ArXiv NLP·AI Forradalom szerk.·2026. május 28.

Megosztás

A multimodal AI-rendszerek feltörése még kevéssé kutatott terület, pedig a nem biztonságos képgenerálás súlyosabb következményekkel járhat, mint a szöveges. A Stanford és a Google Robotics kutatói bemutatták a PAST2HARM nevű, egyszerű, mégis hatékony módszert, amely képes megkerülni a legmodernebb, képgeneráló AI-k beépített védelmi rendszereit — írja az ArXiv.

A PAST2HARM a korábbi megfigyelésekre épít, miszerint a múlt idejű átfogalmazások képesek kijátszani a biztonsági mechanizmusokat. A keretrendszer módszeresen használja ki ezt a sebezhetőséget a generatív AI-kban. Két irányban vizsgálják az attackot: egyrészt a „szélesség” révén, amely az időbeli mélyítéssel erősíti a történelmi horgonyzást és archiválási jelzéseket, erodálva a különböző igazítási erősségű modellek védelmi határait. Másrészt a „mélység” révén, amely kezdeti megfelelés után iteratív eszkalációval teszteli a káros tartalom generálásának felső határát.

A sebezhetőség törékeny szálai

A kutatók megállapították, hogy a beszélgetés közbeni fordulatok jelentik a csúcspontos sebezhetőségi ablakokat, ahol a károsság növekszik, mielőtt platózik, majd végül szemantikai inverzió következik be. A PAST2HARM-ot három modellen tesztelték: Gemini Nano Banana Pro, GPT Image 2 és SD XL. A sikerráták 83%, 67% és 100% voltak feketedobozos, gradien-mentes környezetben.

Káros kimenetek és a jövő kihívásai

Az adverszáriális utasítások más modellekre is átvihetők, több mint 50%-os cross-model sikerrátával. Az attack változatos káros kimeneteket váltott ki, beleértve explicit szexuális tartalmakat, politikai dezinformációt, történelmi tagadási narratívákat, gyűlöletbeszédet és önkárosítás dicsőítését. A kutatók egy kurált prompt-teljesítménytesztet is kiadnak a red teaming és az alignment segítésére.

A kutatás eredményeit az ArXiv publikálta 2026. május 27-én, a Gemini Nano Banana Pro modell 83%-os sikerrátával bizonyította a PAST2HARM hatékonyságát.

tetszett a cikk? oszd meg →

Megosztás