ÉlőUtoljára: 1 órájaMa: 1
Modellek & LLMfrissítve: 11:30

A ChatGPT és a Gemini válaszai eltérő hangnemekre: 40%-os eltérés a pontosságban

A ChatGPT és a Gemini modellek válaszadási pontossága akár 40%-kal is eltérhet a felvetett hangnemtől függően — derült ki egy friss kutatásból. A tesztelt LLM-ek eltérő érzékenységet mutattak a különböző stílusokra.

A ChatGPT és a Gemini válaszai eltérő hangnemekre: 40%-os eltérés a pontosságban
Fotó: Fotó: Jonathan Kemper / Unsplash
forrás: ArXiv AI·AI Forradalom szerk.·
Megosztás

A nagy nyelvi modellek (LLM) használata egyre elterjedtebb, ám teljesítményük változó lehet az utasítások stílusától és hangnemétől függően. Egy új tanulmányban azt vizsgálták, hogy a hangnembeli eltérések hogyan vezetnek eltérő pontossághoz objektív feleletválasztós kérdéseknél.

A kutatók két adatkészletet használtak: egy 50 alapvető kérdésből álló halmazt öt hangnemvariánssal, valamint egy 570 alapvető kérdésből álló MMLU-adatbázist 57 témakörben, hét hangnemvariánssal. A kísérleteket négy népszerű, költséghatékony LLM — a ChatGPT-4o, ChatGPT-5-nano, Gemini 2.5 Flash és Gemini 2.5 Flash Lite — teljesítményének értékelésére végezték el.

Kapcsolódó: LLM-ek vizsgálata

A hangnemhatások labirintusa

Az eredmények szerint a hangnemhatások rendszerszerűek, de erősen modellfüggőek. Egyes modellek kis, ám statisztikailag szignifikáns eltéréseket mutattak, míg mások jelentős pontosság-ingadozást tapasztaltak a különböző hangnemek között. A tesztek kimutatták, hogy a válaszok pontossága akár 40%-kal is eltérhet a használt hangnemtől függően.

Kapcsolódó: személyre szabott LLM-ek

A hangnemérzékenység törékeny művészete

A tanulmány továbbá azonosította a témakör-szintű különbségeket a hangnemérzékenységben. Egy újszerű útválasztási keretrendszert is bemutattak, amely magyarázatot ad arra, hogyan hangolhatják a hangnemek a belső érvelési módokat. A kutatók óvatosságra intik a felhasználókat, hogy ne feltételezzék a hangnem-robosztus megbízhatóságot a LLM-ek bevezetésekor, a Gemini 2.5 Flash modell 2024. márciusi frissítése óta.

Kapcsolódó: LLM-ek tagadáskezelése

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom