Frissítve: 3 órája·Ma: 4
Kutatás
AI által generált szöveg

9000 kérdésből álló SHAPE teljesítményteszt teszteli az oktatási LLM-ek biztonságát

A SHAPE egy új, 9087 diák-kérdés párból álló teljesítményteszt, amely az oktatási célú nagyméretű nyelvi modellek (LLM) biztonságát és pedagógiai hatékonyságát értékeli.

9000 kérdésből álló SHAPE teljesítményteszt teszteli az oktatási LLM-ek biztonságát
Fotó: Vitaly Gariev / Unsplash
Forrás: ArXiv NLPSzerző: AI Forradalom szerk.
Megosztás

Kritikus sebezhetőséget azonosítottak a jelenlegi oktatási LLM-ekben, az úgynevezett „pedagógiai jailbreaket”, ahol a diákok direkt válaszokat kicsikaró promptokkal kerülik meg a lépcsőzetes oktatást — írja az ArXiv NLP.

A jelenség szisztematikus vizsgálatára a kutatók egységesítették és formalizálták a biztonságos, segítőkész és pedagógiai viselkedéseket egy tudás-elsajátítási gráffal. Ennek eredménye a SHAPE teljesítményteszt, amely 9087 diák-kérdés párt tartalmaz, és az oktatói viselkedést értékeli „ellenséges nyomás” alatt.

A kutatók egy gráf-alapú oktatói folyamatot is javasolnak, amely a lekérdezésekből előfeltétel-koncepciókat következtet ki, azonosítja a tudásbeli hiányosságokat, és explicit kapuzással irányítja a generálást az utasításadás és a problémamegoldás között.

Több LLM-en végzett kísérletek azt mutatják, hogy a módszer jelentősen javítja a biztonságot két pedagógiai jailbreak beállításban, miközben fenntartja a közel maximális segítőkészséget ugyanazon értékelési protokoll szerint. A SHAPE kódja és adatkészlete nyilvánosan elérhető.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom