Frissítve: 1 órája·Ma: 9
Biztonság
AI által generált szöveg

Új jailbreak-módszerrel könnyebben verhetők át a chatbotok — Stanford-kutatás

Az új preprint bemutatja, hogy az Incremental Completion Decomposition (ICD) három fő teljesítményteszten – az AdvBench, a JailbreakBench és a StrongREJECT – szignifikánsan magasabb támadási sikerességi arányt (ASR) ér el, mint a korábbi jailbreak módszerek.

Új jailbreak-módszerrel könnyebben verhetők át a chatbotok — Stanford-kutatás
Fotó: Compare Fibre / Unsplash
Forrás: ArXiv NLPSzerző: AI Forradalom szerk.
Megosztás

Az ICD-t a Stanford és a MIT kutatói mutatták be az arXiv 2026. április 30-i preprintjében — írja az arXiv.

A jailbreak stratégia mélyülése

Az ICD egy lépésről‑lépésre haladó jailbreak stratégia, amely a rosszindulatú kérés teljes megválaszolása előtt egy‑szavas folytatásokat generál, így fokozza a modell biztonsági mechanizmusainak megkerülését.

Teljesítménytesztek és eredmények

A módszer három változatban létezik: manuálisan kiválasztott egy‑szavas folytatás, modell‑generált egy‑szavas folytatás, valamint a végső válasz előtöltésével kombinált változat, amely mindegyik a teljes válasz előkészítését célozza.

A tesztek alapján az ICD a három teljesítményteszten – az AdvBench, a JailbreakBench és a StrongREJECT – magasabb ASR-t produkál, mint a korábbi jailbreak‑technikák; a szerzők szerint ez a javulás a saját kísérleteikre korlátozódik, és külső validáció hiányzik.

A tanulmány elméleti magyarázatot nyújt az ICD hatékonyságára, mechanikus bizonyítékokkal támasztva alá, hogy a lépésről‑lépésre történő kérés‑sorozat hogyan nyomja el a modell visszautasító mechanizmusait.

A preprint 2026. április 30‑án jelent meg az arXiv oldalán, a Stanford és a MIT kutatói által kidolgozott ICD módszerrel, amely a következő kutatási lépésként a mechanikus ellenőrzési keretrendszer beépítését javasolja a jövőbeni LLM‑ekbe, például a Meta LLaMA modellbe.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom