Kutatás2026. ápr. 22.frissítve: 06:30

Több mintavétellel bukhatnak le az LLM-ek feltörői — állítja az arXiv tanulmánya

A nagyméretű nyelvi modellek (LLM) feltörésének észlelése különösen nehéz a jól illesztett modelleknél, amelyek ritkán produkálnak káros kimeneteket — mutatja egy új kutatás.

Fotó: Robina Weermeijer / Unsplash

forrás: ArXiv NLP·AI Forradalom szerk.·2026. április 22.

Megosztás

Az LLM-ek feltörésének észlelését vizsgálta egy friss tanulmány, amely szerint az egyetlen kimenet értékelése szisztematikusan alábecsüli a sebezhetőséget. A kutatást az arXiv-on tették közzé 2604.18775v1 számon, előnyomtatott formában.

A kutatók szerint a több generáció mintavétele jelentősen javítja a káros viselkedés észlelését. Különösen nagy előrelépés tapasztalható, amikor egyetlen generációról mérsékelt mintavételre térnek át.

A mintavétel hatékonysága

A tanulmány a JailbreakBench Behaviors adathalmazt és több generátor modellt használt, eltérő illesztési erősségekkel. A vizsgálat során egy lexikális TF-IDF detektort és egy generációs inkonzisztencián alapuló detektort is értékeltek, különböző mintavételi költségvetések mellett.

Az eredmények azt mutatják, hogy a nagyobb mintavételi költségvetések már csökkenő hozamot eredményeznek. Ez azt jelenti, hogy egy bizonyos ponton túl a további mintavétel már nem hoz arányosan több új felfedezést a feltörési kísérletekről. A detektálási jelek részben általánosíthatók a különböző modellek között.

tetszett a cikk? oszd meg →

Megosztás