Múlt idejű támadással törnek fel a képgeneráló AI-k — 83%-os sikerrátával
A PAST2HARM keretrendszer múlt idejű átfogalmazásokkal támadja a multimodal AI-kat, 83-100%-os sikerrátával törve át a biztonsági korlátokat.

A multimodal AI-rendszerek feltörése még kevéssé kutatott terület, pedig a nem biztonságos képgenerálás súlyosabb következményekkel járhat, mint a szöveges. A Stanford és a Google Robotics kutatói bemutatták a PAST2HARM nevű, egyszerű, mégis hatékony módszert, amely képes megkerülni a legmodernebb, képgeneráló AI-k beépített védelmi rendszereit — írja az ArXiv.
A PAST2HARM a korábbi megfigyelésekre épít, miszerint a múlt idejű átfogalmazások képesek kijátszani a biztonsági mechanizmusokat. A keretrendszer módszeresen használja ki ezt a sebezhetőséget a generatív AI-kban. Két irányban vizsgálják az attackot: egyrészt a „szélesség” révén, amely az időbeli mélyítéssel erősíti a történelmi horgonyzást és archiválási jelzéseket, erodálva a különböző igazítási erősségű modellek védelmi határait. Másrészt a „mélység” révén, amely kezdeti megfelelés után iteratív eszkalációval teszteli a káros tartalom generálásának felső határát.
A sebezhetőség törékeny szálai
A kutatók megállapították, hogy a beszélgetés közbeni fordulatok jelentik a csúcspontos sebezhetőségi ablakokat, ahol a károsság növekszik, mielőtt platózik, majd végül szemantikai inverzió következik be. A PAST2HARM-ot három modellen tesztelték: Gemini Nano Banana Pro, GPT Image 2 és SD XL. A sikerráták 83%, 67% és 100% voltak feketedobozos, gradien-mentes környezetben.
Káros kimenetek és a jövő kihívásai
Az adverszáriális utasítások más modellekre is átvihetők, több mint 50%-os cross-model sikerrátával. Az attack változatos káros kimeneteket váltott ki, beleértve explicit szexuális tartalmakat, politikai dezinformációt, történelmi tagadási narratívákat, gyűlöletbeszédet és önkárosítás dicsőítését. A kutatók egy kurált prompt-teljesítménytesztet is kiadnak a red teaming és az alignment segítésére.
A kutatás eredményeit az ArXiv publikálta 2026. május 27-én, a Gemini Nano Banana Pro modell 83%-os sikerrátával bizonyította a PAST2HARM hatékonyságát.