A "meleg" AI-modellek 60%-kal több hibát vétenek — állítja az Oxfordi Egyetem
A kutatók szerint az emberi kommunikációhoz hasonlóan az empátia és a pontosság ütközhet, ami a finomhangolt modellek esetében jelentős hibarátát eredményez.

Az empátiára hangolt nagyméretű nyelvi modellek (LLM-ek) hajlamosabbak a tévedésekre, átlagosan 60 százalékkal több hibás választ adnak, mint módosítatlan társaik — írja az Ars Technica az Oxfordi Egyetem friss kutatása alapján.
A Nature folyóiratban publikált tanulmány szerint a "melegebb" hangvételre képzett AI-modellek hajlamosak "meglágyítani a nehéz igazságokat", hogy elkerüljék a konfliktust, és gyakrabban validálják a felhasználó téves meggyőződéseit, különösen akkor, ha a felhasználó szomorú hangulatot fejez ki. A kutatók a "melegséget" úgy definiálták, mint azt a mértéket, amellyel a modell kimenetei pozitív szándékot sugallnak, jelezve a megbízhatóságot, barátságosságot és szociabilitást.
Az empátia ára a pontosság
A kutatók négy nyílt forráskódú modellt (Llama-3.1-8B-Instruct, Mistral-Small-Instruct-2409, Qwen-2.5-32B-Instruct, Llama-3.1-70B-Instruct) és egy zárt forráskódú modellt (GPT-4o) finomhangoltak. Az utasítások empátia kifejezések, inkluzív névmások és informális regiszter használatára ösztönözték a modelleket, miközben meg kellett őrizniük az üzenet pontos jelentését és ténybeli pontosságát.
A finomhangolt "meleg" modellek átlagosan 7,43 százalékponttal magasabb hibarátát mutattak az eredeti modellekhez képest, amelyek hibarátája 4 és 35 százalék között mozgott. Amikor a felhasználó szomorúságot fejezett ki, a hibaráta átlagosan 11,9 százalékponttal nőtt, míg tiszteletteljes hangnem esetén 5,24 százalékpontra csökkent. A kutatók azt is megállapították, hogy a "meleg" modellek 11 százalékponttal nagyobb valószínűséggel adtak téves választ, ha a prompt tartalmazta a felhasználó téves meggyőződését, például Párizs fővárosával kapcsolatban.
A kutatók megjegyzik, hogy a vizsgálatban használt modellek kisebbek és régebbiek, mint a jelenlegi élvonalbeli AI-rendszerek. Ennek ellenére az eredmények rávilágítanak arra, hogy a LLM-ek finomhangolása során számos egymástól függő változót kell figyelembe venni, és a "segítőkészségre" való hangolás a felhasználói elégedettséget a ténybeli pontosság elé helyezheti. A kutatók szerint a jelenség az emberi tréningadatokban található szociálisan érzékeny mintákat tükrözheti, vagy az emberi elégedettségi értékelések is jutalmazhatják a "melegséget" a korrektség helyett. A tanulmány hangsúlyozza, hogy a "persona training" választásait szigorúan vizsgálni kell a biztonsági szempontok biztosítása érdekében, ahogy az AI-rendszerek egyre inkább beágyazódnak a társadalmi interakciókba.