Amazon kutatók 95%-os biztonsági intervallummal becsülik a LLM támadási kockázatot

Az Amazon Nova kutatócsoport egy új C3LLM keretrendszert mutat be, amely a többfordulós párbeszédeket grafikonként modellezi és valószínűségi határokat ad a katasztrófafélő támadásokra.

Fotó: Amélie Mourichon / Unsplash

Forrás: Amazon Science•Szerző: AI Forradalom szerk.•2026. április 27.

Megosztás

A red‑team tesztek csak egyedi promptokat vizsgálnak, ezért a beszélgetésbiztonságot gyakran alulbecsülik. A C3LLM keretrendszer ezt a hiányt pótolja, teljes párbeszédsorozatokat modellez grafikonként, és valószínűségi határokat ad a katasztrófafélő támadásokra — írja az Amazon Science blog.

Grafikus modell a többfordulós párbeszédekről

A keretrendszerben minden kérdés egy csomópont, a szemantikus kapcsolatok pedig élként kötik őket. Ez a struktúra a felhasználó természetes kérdésláncait tükrözi, így a lehetséges támadási útvonalak teljes spektrumát lefedi.

Clopper‑Pearson intervallumok a kockázatbecsléshez

A megfigyelt sikeres támadások arányát a Clopper‑Pearson módszerrel határozzák meg, amely alsó és felső határokat ad. Úgy tűnik, hogy az így kapott 95%-os konfidencia‑intervallumok magas biztonsági valószínűségi határokat biztosítanak a nagy nyelvi modellekhez.

A C3LLM kódja a GitHubon érhető, a kutatók így saját adathalmazokon tesztelhetik a keretrendszert. Az Amazon Nova és az UIUC együttműködése biztosítja, hogy az eszköz iparági és akadémiai környezetben egyaránt használható legyen.

A keretrendszerrel a Claude‑Sonnet‑4, a Nova Premier, a Mistral‑Large és a DeepSeek‑R1 modelleket vizsgálták. A kémiai/biológiai teljesítményteszten a legtöbb modell alacsonyabb felső határral rendelkezik, míg a DeepSeek‑R1 a legmagasabb kockázati intervallumot mutatta.

A DeepSeek‑R1 modellre a C3LLM 95%-os intervallumának felső határa 27% a kiberbűnözés teljesítményteszten, 2024. március 15-én tesztelve.