A ChatGPT és a Gemini válaszai eltérő hangnemekre: 40%-os eltérés a pontosságban
A ChatGPT és a Gemini modellek válaszadási pontossága akár 40%-kal is eltérhet a felvetett hangnemtől függően — derült ki egy friss kutatásból. A tesztelt LLM-ek eltérő érzékenységet mutattak a különböző stílusokra.

A nagy nyelvi modellek (LLM) használata egyre elterjedtebb, ám teljesítményük változó lehet az utasítások stílusától és hangnemétől függően. Egy új tanulmányban azt vizsgálták, hogy a hangnembeli eltérések hogyan vezetnek eltérő pontossághoz objektív feleletválasztós kérdéseknél.
A kutatók két adatkészletet használtak: egy 50 alapvető kérdésből álló halmazt öt hangnemvariánssal, valamint egy 570 alapvető kérdésből álló MMLU-adatbázist 57 témakörben, hét hangnemvariánssal. A kísérleteket négy népszerű, költséghatékony LLM — a ChatGPT-4o, ChatGPT-5-nano, Gemini 2.5 Flash és Gemini 2.5 Flash Lite — teljesítményének értékelésére végezték el.
Kapcsolódó: LLM-ek vizsgálata
A hangnemhatások labirintusa
Az eredmények szerint a hangnemhatások rendszerszerűek, de erősen modellfüggőek. Egyes modellek kis, ám statisztikailag szignifikáns eltéréseket mutattak, míg mások jelentős pontosság-ingadozást tapasztaltak a különböző hangnemek között. A tesztek kimutatták, hogy a válaszok pontossága akár 40%-kal is eltérhet a használt hangnemtől függően.
Kapcsolódó: személyre szabott LLM-ek
A hangnemérzékenység törékeny művészete
A tanulmány továbbá azonosította a témakör-szintű különbségeket a hangnemérzékenységben. Egy újszerű útválasztási keretrendszert is bemutattak, amely magyarázatot ad arra, hogyan hangolhatják a hangnemek a belső érvelési módokat. A kutatók óvatosságra intik a felhasználókat, hogy ne feltételezzék a hangnem-robosztus megbízhatóságot a LLM-ek bevezetésekor, a Gemini 2.5 Flash modell 2024. márciusi frissítése óta.
Kapcsolódó: LLM-ek tagadáskezelése