A ChatGPT nyelvi előítéletekkel küzd: 19%-kal több sztereotípiát használ
Ezt a jelenséget a Berkeley Egyetem kutatói vizsgálták, akik megállapították, hogy a modell nem standard angol dialektusokkal szembeni viselkedése számos területen problematikus

A ChatGPT nyelvi modelljei felerősítik a dialektusok közötti diszkriminációt, és következetesen előítéletes válaszokat adnak a nem standard angol nyelvváltozatokra — írja a BAIR Blog.
A Berkeley kutatói szerint a modell válaszai 19%-kal több sztereotípiát, 25%-kal sértőbb tartalmat, 9%-kal rosszabb megértést és 15%-kal lekezelőbb hangnemet mutatnak a nem standard dialektusok, például az indiai, nigériai vagy afroamerikai angol esetében. A világon több mint egymilliárd ember beszél ilyen nyelvváltozatokat, és sokan közülük a valós életben is hátrányos megkülönböztetéssel szembesülnek.
A kutatás során a GPT-3.5 Turbo és a GPT-4 modelleket tíz angol dialektussal tesztelték, amelyek között két standard (amerikai és brit) és nyolc nem standard változat szerepelt. Megvizsgálták, hogy a modellek mennyire tartják meg az input nyelvi jellemzőit, és hogyan értékelik a válaszokat az anyanyelvi beszélők. Kiderült, hogy a ChatGPT alapértelmezetten az amerikai angol jellemzőit tartja meg a leginkább, több mint 60%-os arányban.
Meglepő módon a modell képes utánozni más dialektusokat is, bár nem következetesen. A több beszélővel rendelkező változatokat (például a nigériai és indiai angolt) gyakrabban imitálja, mint a kevesebb beszélővel rendelkezőket, mint például a jamaikai angolt. Ez arra utal, hogy a betanítási adatok összetétele befolyásolja a nem standard dialektusokra adott válaszokat. Emellett a modell szinte kivétel nélkül amerikai helyesírásra vált, még akkor is, ha brit helyesírással kap inputot, ami a nem amerikai felhasználók jelentős részét frusztrálhatja.
A GPT-4, bár újabb és erősebb modell, nem oldotta meg a dialektusok közötti diszkriminációt. Sőt, a sztereotipizálást 14%-kal súlyosbította a GPT-3.5-höz képest a kisebbségi nyelvváltozatok esetében. Ez azt jelenti, hogy a nagyobb, újabb modellek sem garantálják a nyelvi előítéletek megszűnését, sőt, akár ronthatják is a helyzetet.
A kutatók szerint a ChatGPT felerősítheti a nyelvi diszkriminációt, ami akadályokat gördíthet a nem standard dialektusokat beszélők elé, miközben az AI modellek egyre inkább beépülnek a mindennapi életbe. A sztereotip és lekezelő válaszok tovább erősíthetik azt a tévhitet, hogy ezek a nyelvváltozatok kevésbé korrektek, és kevésbé érdemelnek tiszteletet, ami globálisan növelheti az egyenlőtlenségeket a kisebbségi nyelvi közösségekben.