Frissítve: 18 perce·Ma: 9
Kutatás
AI által generált szöveg

Új védelem a LLM-ek rejtett, többfordulós támadásai ellen — elkerüli a korai elutasítást

A többfordulós párbeszédekben rejlő rejtett rosszindulatú szándék egyre nagyobb fenyegetést jelent a telepített nagy nyelvi modellekre (LLM-ekre), a kutatók azonban új módszerrel védekeznének.

Új védelem a LLM-ek rejtett, többfordulós támadásai ellen — elkerüli a korai elutasítást
Fotó: Kvistholt Photography / Unsplash
Forrás: ArXiv NLPSzerző: AI Forradalom szerk.
Megosztás

A nagy nyelvi modellek (LLM-ek) biztonsága egyre égetőbb kérdés, különösen a többfordulós párbeszédekben rejlő rejtett rosszindulatú szándék miatt — írja az arXiv-on megjelent tanulmány. A támadók ugyanis a káros szándékot több, ártatlannak tűnő fordulaton keresztül is eloszthatják, ezzel kijátszva a meglévő biztonsági korlátokat.

A tanulmány szerint még a modern kereskedelmi modellek is sebezhetőek maradnak az ilyen többfordulós támadásokkal szemben, hiába a biztonsági beállítások és a külső védelmi mechanizmusok fejlődése. Ezért a kutatók egy olyan új, válaszérzékeny védelmi mechanizmust javasolnak, amely azonosítja a legkorábbi pontot, ahol a modell válasza káros cselekedetet tenne lehetővé.

A biztonság sorsdöntő fordulópontja

A védelem célja a pontos, fordulószintű beavatkozás, elkerülve az ártalmatlan beszélgetések idő előtti elutasítását. Ez a megközelítés lehetővé teszi, hogy a modell csak akkor avatkozzon be, amikor az interakció már elegendő ahhoz, hogy káros cselekményt tegyen lehetővé. A TurnGate névre keresztelt védelmi rendszer a jelölt válaszra kondicionál, és fordulószintű felügyelettel, majd jutalom-optimalizálással képzik.

Védelmi stratégiák a jövőre nézve

A betanítás és értékelés támogatására a kutatók létrehoztak egy új adatkészletet, a Multi-Turn Intent adathalmaz (MTID) nevű gyűjteményt. Ez az adatkészlet elágazó támadási forgatókönyveket tartalmaz, amelyek annotálják az első káros cselekményt lehetővé tevő fordulatot, és párosítják azokat ártalmatlan, de nehezen megkülönböztethető negatív példákkal.

Az arXiv:2605.05630v1 azonosítóval publikált kutatás eredményei azt sugallják, hogy a TurnGate a fejlődő párbeszédállapotból következtet a rejtett káros szándékra. A MTID adatkészlet további fejlesztése 2024-ben kezdődik.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom