Amazon kutatók 95%-os biztonsági intervallummal becsülik a LLM támadási kockázatot
Az Amazon Nova kutatócsoport egy új C3LLM keretrendszert mutat be, amely a többfordulós párbeszédeket grafikonként modellezi és valószínűségi határokat ad a katasztrófafélő támadásokra.

A red‑team tesztek csak egyedi promptokat vizsgálnak, ezért a beszélgetésbiztonságot gyakran alulbecsülik. A C3LLM keretrendszer ezt a hiányt pótolja, teljes párbeszédsorozatokat modellez grafikonként, és valószínűségi határokat ad a katasztrófafélő támadásokra — írja az Amazon Science blog.
Grafikus modell a többfordulós párbeszédekről
A keretrendszerben minden kérdés egy csomópont, a szemantikus kapcsolatok pedig élként kötik őket. Ez a struktúra a felhasználó természetes kérdésláncait tükrözi, így a lehetséges támadási útvonalak teljes spektrumát lefedi.
Clopper‑Pearson intervallumok a kockázatbecsléshez
A megfigyelt sikeres támadások arányát a Clopper‑Pearson módszerrel határozzák meg, amely alsó és felső határokat ad. Úgy tűnik, hogy az így kapott 95%-os konfidencia‑intervallumok magas biztonsági valószínűségi határokat biztosítanak a nagy nyelvi modellekhez.
A C3LLM kódja a GitHubon érhető, a kutatók így saját adathalmazokon tesztelhetik a keretrendszert. Az Amazon Nova és az UIUC együttműködése biztosítja, hogy az eszköz iparági és akadémiai környezetben egyaránt használható legyen.
A keretrendszerrel a Claude‑Sonnet‑4, a Nova Premier, a Mistral‑Large és a DeepSeek‑R1 modelleket vizsgálták. A kémiai/biológiai teljesítményteszten a legtöbb modell alacsonyabb felső határral rendelkezik, míg a DeepSeek‑R1 a legmagasabb kockázati intervallumot mutatta.
A DeepSeek‑R1 modellre a C3LLM 95%-os intervallumának felső határa 27% a kiberbűnözés teljesítményteszten, 2024. március 15-én tesztelve.