Több mintavétellel bukhatnak le a LLM-ek feltörői — állítja az arXiv tanulmánya
A nagyméretű nyelvi modellek (LLM) feltörésének észlelése különösen nehéz a jól illesztett modelleknél, amelyek ritkán produkálnak káros kimeneteket — mutatja egy új kutatás.

A LLM-ek feltörésének észlelését vizsgálta egy friss tanulmány, amely szerint az egyetlen kimenet értékelése szisztematikusan alábecsüli a sebezhetőséget. A kutatást az arXiv-on tették közzé 2604.18775v1 számon, előnyomtatott formában.
A kutatók szerint a több generáció mintavétele jelentősen javítja a káros viselkedés észlelését. Különösen nagy előrelépés tapasztalható, amikor egyetlen generációról mérsékelt mintavételre térnek át.
A mintavétel hatékonysága
A tanulmány a JailbreakBench Behaviors adathalmazt és több generátor modellt használt, eltérő illesztési erősségekkel. A vizsgálat során egy lexikális TF-IDF detektort és egy generációs inkonzisztencián alapuló detektort is értékeltek, különböző mintavételi költségvetések mellett.
Az eredmények azt mutatják, hogy a nagyobb mintavételi költségvetések már csökkenő hozamot eredményeznek. Ez azt jelenti, hogy egy bizonyos ponton túl a további mintavétel már nem hoz arányosan több új felfedezést a feltörési kísérletekről. A detektálási jelek részben általánosíthatók a különböző modellek között.