Biztonság2026. ápr. 30.frissítve: 06:30

Új jailbreak-módszerrel könnyebben verhetők át a chatbotok — Stanford-kutatás

Az új preprint bemutatja, hogy az Incremental Completion Decomposition (ICD) három fő teljesítményteszten – az AdvBench, a JailbreakBench és a StrongREJECT – szignifikánsan magasabb támadási sikerességi arányt (ASR) ér el, mint a korábbi jailbreak módszerek.

Fotó: Rob Wingate / Unsplash

forrás: ArXiv NLP·AI Forradalom szerk.·2026. április 30.

Megosztás

Az ICD-t a Stanford és a MIT kutatói mutatták be az arXiv 2026. április 30-i preprintjében — írja az arXiv.

A jailbreak stratégia mélyülése

Az ICD egy lépésről‑lépésre haladó jailbreak stratégia, amely a rosszindulatú kérés teljes megválaszolása előtt egy‑szavas folytatásokat generál, így fokozza a modell biztonsági mechanizmusainak megkerülését.

Teljesítménytesztek és eredmények

A módszer három változatban létezik: manuálisan kiválasztott egy‑szavas folytatás, modell‑generált egy‑szavas folytatás, valamint a végső válasz előtöltésével kombinált változat, amely mindegyik a teljes válasz előkészítését célozza.

A tesztek alapján az ICD a három teljesítményteszten – az AdvBench, a JailbreakBench és a StrongREJECT – magasabb ASR-t produkál, mint a korábbi jailbreak‑technikák; a szerzők szerint ez a javulás a saját kísérleteikre korlátozódik, és külső validáció hiányzik.

A tanulmány elméleti magyarázatot nyújt az ICD hatékonyságára, mechanikus bizonyítékokkal támasztva alá, hogy a lépésről‑lépésre történő kérés‑sorozat hogyan nyomja el a modell visszautasító mechanizmusait.

A preprint 2026. április 30‑án jelent meg az arXiv oldalán, a Stanford és a MIT kutatói által kidolgozott ICD módszerrel, amely a következő kutatási lépésként a mechanikus ellenőrzési keretrendszer beépítését javasolja a jövőbeni LLM‑ekbe, például a Meta LLaMA modellbe.

tetszett a cikk? oszd meg →

Megosztás