9000 kérdésből álló SHAPE teljesítményteszt teszteli az oktatási LLM-ek biztonságát
A SHAPE egy új, 9087 diák-kérdés párból álló teljesítményteszt, amely az oktatási célú nagyméretű nyelvi modellek (LLM) biztonságát és pedagógiai hatékonyságát értékeli.

Kritikus sebezhetőséget azonosítottak a jelenlegi oktatási LLM-ekben, az úgynevezett „pedagógiai jailbreaket”, ahol a diákok direkt válaszokat kicsikaró promptokkal kerülik meg a lépcsőzetes oktatást — írja az ArXiv NLP.
A jelenség szisztematikus vizsgálatára a kutatók egységesítették és formalizálták a biztonságos, segítőkész és pedagógiai viselkedéseket egy tudás-elsajátítási gráffal. Ennek eredménye a SHAPE teljesítményteszt, amely 9087 diák-kérdés párt tartalmaz, és az oktatói viselkedést értékeli „ellenséges nyomás” alatt.
A kutatók egy gráf-alapú oktatói folyamatot is javasolnak, amely a lekérdezésekből előfeltétel-koncepciókat következtet ki, azonosítja a tudásbeli hiányosságokat, és explicit kapuzással irányítja a generálást az utasításadás és a problémamegoldás között.
Több LLM-en végzett kísérletek azt mutatják, hogy a módszer jelentősen javítja a biztonságot két pedagógiai jailbreak beállításban, miközben fenntartja a közel maximális segítőkészséget ugyanazon értékelési protokoll szerint. A SHAPE kódja és adatkészlete nyilvánosan elérhető.