Frissítve: 2 órája·Ma: 14
Kutatás
AI által generált szöveg

Személyre szabott LLM rangsorokat javasol az ArXiv kutatása — 57% eltér az átlagtól

A jelenlegi, átlagolt értékelések nem tükrözik a felhasználók valós igényeit, ami a modellek valós teljesítményét is torzítja.

Személyre szabott LLM rangsorokat javasol az ArXiv kutatása — 57% eltér az átlagtól
Fotó: Clinic Grower / Unsplash
Forrás: ArXiv AISzerző: AI Forradalom szerk.
Megosztás

Személyre szabott LLM-benchmarkokat sürget egy új ArXiv AI tanulmány, amely szerint a jelenlegi, aggregált rangsorok figyelmen kívül hagyják az egyéni felhasználói preferenciákat — írja a kutatás.

A nagyméretű nyelvi modellek (LLM) képességeinek növekedésével és valós feladatokban való alkalmazásukkal az emberi preferenciákkal való összehangolásuk kulcsfontosságúvá vált. A jelenlegi teljesítménytesztek azonban az összes felhasználó preferenciáit átlagolják, ami elrejti az egyéni igényeket a modellrangsorok felállításakor.

A személyre szabott értékelés új korszaka

A kutatók 115 aktív Chatbot Arena felhasználó ELO-értékeléseit és Bradley-Terry együtthatóit elemezték. Azt vizsgálták, hogyan befolyásolják a felhasználói lekérdezések jellemzői (témák és írásstílus) a LLM-rangsorok eltéréseit. Az eredmények drámai különbségeket mutattak: az egyéni LLM-rangsorok jelentősen eltérnek az aggregált rangsoroktól.

A pontos modellrangsorok kulcsa

A Bradley-Terry korrelációk átlagosan mindössze 0,04-et értek el, ami azt jelenti, hogy a felhasználók 57%-ánál közel nulla vagy negatív korreláció volt tapasztalható az egyéni és az átlagolt rangsorok között. A kutatás 2024. március 10-én került publikálásra az ArXiv oldalán, és a Chatbot Arena felhasználók adatai alapján készült.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom