Kutatás2026. ápr. 27.frissítve: 06:30

9000 kérdésből álló SHAPE teljesítményteszt teszteli az oktatási LLM-ek biztonságát

A SHAPE egy új, 9087 diák-kérdés párból álló teljesítményteszt, amely az oktatási célú nagyméretű nyelvi modellek (LLM) biztonságát és pedagógiai hatékonyságát értékeli.

Fotó: Vitaly Gariev / Unsplash

forrás: ArXiv NLP·AI Forradalom szerk.·2026. április 27.

Megosztás

Kritikus sebezhetőséget azonosítottak a jelenlegi oktatási LLM-ekben, az úgynevezett „pedagógiai jailbreaket”, ahol a diákok direkt válaszokat kicsikaró promptokkal kerülik meg a lépcsőzetes oktatást — írja az ArXiv NLP.

A jelenség szisztematikus vizsgálatára a kutatók egységesítették és formalizálták a biztonságos, segítőkész és pedagógiai viselkedéseket egy tudás-elsajátítási gráffal. Ennek eredménye a SHAPE teljesítményteszt, amely 9087 diák-kérdés párt tartalmaz, és az oktatói viselkedést értékeli „ellenséges nyomás” alatt.

A kutatók egy gráf-alapú oktatói folyamatot is javasolnak, amely a lekérdezésekből előfeltétel-koncepciókat következtet ki, azonosítja a tudásbeli hiányosságokat, és explicit kapuzással irányítja a generálást az utasításadás és a problémamegoldás között.

Több LLM-en végzett kísérletek azt mutatják, hogy a módszer jelentősen javítja a biztonságot két pedagógiai jailbreak beállításban, miközben fenntartja a közel maximális segítőkészséget ugyanazon értékelési protokoll szerint. A SHAPE kódja és adatkészlete nyilvánosan elérhető.

tetszett a cikk? oszd meg →

Megosztás