Új jailbreak-módszerrel könnyebben verhetők át a chatbotok — Stanford-kutatás
Az új preprint bemutatja, hogy az Incremental Completion Decomposition (ICD) három fő teljesítményteszten – az AdvBench, a JailbreakBench és a StrongREJECT – szignifikánsan magasabb támadási sikerességi arányt (ASR) ér el, mint a korábbi jailbreak módszerek.

Az ICD-t a Stanford és a MIT kutatói mutatták be az arXiv 2026. április 30-i preprintjében — írja az arXiv.
A jailbreak stratégia mélyülése
Az ICD egy lépésről‑lépésre haladó jailbreak stratégia, amely a rosszindulatú kérés teljes megválaszolása előtt egy‑szavas folytatásokat generál, így fokozza a modell biztonsági mechanizmusainak megkerülését.
Teljesítménytesztek és eredmények
A módszer három változatban létezik: manuálisan kiválasztott egy‑szavas folytatás, modell‑generált egy‑szavas folytatás, valamint a végső válasz előtöltésével kombinált változat, amely mindegyik a teljes válasz előkészítését célozza.
A tesztek alapján az ICD a három teljesítményteszten – az AdvBench, a JailbreakBench és a StrongREJECT – magasabb ASR-t produkál, mint a korábbi jailbreak‑technikák; a szerzők szerint ez a javulás a saját kísérleteikre korlátozódik, és külső validáció hiányzik.
A tanulmány elméleti magyarázatot nyújt az ICD hatékonyságára, mechanikus bizonyítékokkal támasztva alá, hogy a lépésről‑lépésre történő kérés‑sorozat hogyan nyomja el a modell visszautasító mechanizmusait.
A preprint 2026. április 30‑án jelent meg az arXiv oldalán, a Stanford és a MIT kutatói által kidolgozott ICD módszerrel, amely a következő kutatási lépésként a mechanikus ellenőrzési keretrendszer beépítését javasolja a jövőbeni LLM‑ekbe, például a Meta LLaMA modellbe.