Személyre szabott LLM rangsorokat javasol az ArXiv kutatása — 57% eltér az átlagtól
A jelenlegi, átlagolt értékelések nem tükrözik a felhasználók valós igényeit, ami a modellek valós teljesítményét is torzítja.

Személyre szabott LLM-benchmarkokat sürget egy új ArXiv AI tanulmány, amely szerint a jelenlegi, aggregált rangsorok figyelmen kívül hagyják az egyéni felhasználói preferenciákat — írja a kutatás.
A nagyméretű nyelvi modellek (LLM) képességeinek növekedésével és valós feladatokban való alkalmazásukkal az emberi preferenciákkal való összehangolásuk kulcsfontosságúvá vált. A jelenlegi teljesítménytesztek azonban az összes felhasználó preferenciáit átlagolják, ami elrejti az egyéni igényeket a modellrangsorok felállításakor.
A személyre szabott értékelés új korszaka
A kutatók 115 aktív Chatbot Arena felhasználó ELO-értékeléseit és Bradley-Terry együtthatóit elemezték. Azt vizsgálták, hogyan befolyásolják a felhasználói lekérdezések jellemzői (témák és írásstílus) a LLM-rangsorok eltéréseit. Az eredmények drámai különbségeket mutattak: az egyéni LLM-rangsorok jelentősen eltérnek az aggregált rangsoroktól.
A pontos modellrangsorok kulcsa
A Bradley-Terry korrelációk átlagosan mindössze 0,04-et értek el, ami azt jelenti, hogy a felhasználók 57%-ánál közel nulla vagy negatív korreláció volt tapasztalható az egyéni és az átlagolt rangsorok között. A kutatás 2024. március 10-én került publikálásra az ArXiv oldalán, és a Chatbot Arena felhasználók adatai alapján készült.