Kutatás2026. ápr. 23.frissítve: 09:30

Személyre szabott LLM rangsorokat javasol az ArXiv kutatása — 57% eltér az átlagtól

A jelenlegi, átlagolt értékelések nem tükrözik a felhasználók valós igényeit, ami a modellek valós teljesítményét is torzítja.

Fotó: Just random Captures / Unsplash

forrás: ArXiv AI·AI Forradalom szerk.·2026. április 23.

Megosztás

Személyre szabott LLM-benchmarkokat sürget egy új ArXiv AI tanulmány, amely szerint a jelenlegi, aggregált rangsorok figyelmen kívül hagyják az egyéni felhasználói preferenciákat — írja a kutatás.

A nagyméretű nyelvi modellek (LLM) képességeinek növekedésével és valós feladatokban való alkalmazásukkal az emberi preferenciákkal való összehangolásuk kulcsfontosságúvá vált. A jelenlegi teljesítménytesztek azonban az összes felhasználó preferenciáit átlagolják, ami elrejti az egyéni igényeket a modellrangsorok felállításakor.

A személyre szabott értékelés új korszaka

A kutatók 115 aktív Chatbot Arena felhasználó ELO-értékeléseit és Bradley-Terry együtthatóit elemezték. Azt vizsgálták, hogyan befolyásolják a felhasználói lekérdezések jellemzői (témák és írásstílus) az LLM-rangsorok eltéréseit. Az eredmények drámai különbségeket mutattak: az egyéni LLM-rangsorok jelentősen eltérnek az aggregált rangsoroktól.

A pontos modellrangsorok kulcsa

A Bradley-Terry korrelációk átlagosan mindössze 0,04-et értek el, ami azt jelenti, hogy a felhasználók 57%-ánál közel nulla vagy negatív korreláció volt tapasztalható az egyéni és az átlagolt rangsorok között. A kutatás 2024. március 10-én került publikálásra az ArXiv oldalán, és a Chatbot Arena felhasználók adatai alapján készült.

tetszett a cikk? oszd meg →

Megosztás