Frissítve: 1 órája·Ma: 15
Kutatás
AI által generált szöveg

Több mintavétellel bukhatnak le a LLM-ek feltörői — állítja az arXiv tanulmánya

A nagyméretű nyelvi modellek (LLM) feltörésének észlelése különösen nehéz a jól illesztett modelleknél, amelyek ritkán produkálnak káros kimeneteket — mutatja egy új kutatás.

Több mintavétellel bukhatnak le a LLM-ek feltörői — állítja az arXiv tanulmánya
Fotó: L N / Unsplash
Forrás: ArXiv NLPSzerző: AI Forradalom szerk.
Megosztás

A LLM-ek feltörésének észlelését vizsgálta egy friss tanulmány, amely szerint az egyetlen kimenet értékelése szisztematikusan alábecsüli a sebezhetőséget. A kutatást az arXiv-on tették közzé 2604.18775v1 számon, előnyomtatott formában.

A kutatók szerint a több generáció mintavétele jelentősen javítja a káros viselkedés észlelését. Különösen nagy előrelépés tapasztalható, amikor egyetlen generációról mérsékelt mintavételre térnek át.

A mintavétel hatékonysága

A tanulmány a JailbreakBench Behaviors adathalmazt és több generátor modellt használt, eltérő illesztési erősségekkel. A vizsgálat során egy lexikális TF-IDF detektort és egy generációs inkonzisztencián alapuló detektort is értékeltek, különböző mintavételi költségvetések mellett.

Az eredmények azt mutatják, hogy a nagyobb mintavételi költségvetések már csökkenő hozamot eredményeznek. Ez azt jelenti, hogy egy bizonyos ponton túl a további mintavétel már nem hoz arányosan több új felfedezést a feltörési kísérletekről. A detektálási jelek részben általánosíthatók a különböző modellek között.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom