Frissítve: 15 perce·Ma: 49
Kutatás
AI által generált szöveg

A XpertBench felrázza a LLM-tesztelést, 1346 feladattal méri a szakértelmet

A 80 kategóriát átfogó adatbázist több mint ezer iparági és kutatói szakértő állította össze, ezzel garantálva a feladatok valósághűségét és relevanciáját.

A XpertBench felrázza a LLM-tesztelést, 1346 feladattal méri a szakértelmet
Fotó: Campaign Creators / Unsplash
Forrás: ArXiv AISzerző: AI Forradalom szerk.
Megosztás

A XpertBench nevű új mérőeszköz 1346 feladattal teszteli a nagy nyelvi modellek (LLM) valós szakértelmét, 80 különböző kategóriában — derül ki az ArXiv AI friss publikációjából.

A hagyományos teljesítménytesztek korlátait felismerve fejlesztették ki a rendszert, mivel a meglévő keretrendszerek gyakran túl szűk területet fednek le, általános feladatokra támaszkodnak, vagy torzítanak az öntesztelés miatt. A XpertBench célja, hogy áthidalja ezt a szakadékot, és hiteles képet adjon a LLM-ek teljesítményéről olyan területeken, mint a pénzügy, az egészségügy, a jog, az oktatás, valamint a STEM és humán tudományok.

A feladatokat több mint ezer, az adott szakterületen dolgozó szakértő – köztük élvonalbeli kutatók és jelentős klinikai vagy ipari tapasztalattal rendelkező gyakorlati szakemberek – állította össze. Ez a módszer biztosítja, hogy a tesztek valóban a valós életből vett, komplex, nyitott végű problémákat tükrözzék, amelyek valódi szakértelmet igényelnek.

A szakértelem mérlegén

Minden egyes feladathoz részletes értékelési rubrikákat is kidolgoztak, amelyek jellemzően 15-40 súlyozott ellenőrzőpontot tartalmaznak. Ezek a rubrikák pontosan leírják, hogyan néz ki az elvárható teljesítmény az egyes kritériumok mentén, segítve a LLM-ek válaszainak objektív és részletes értékelését.

A valóság tükrében

A XpertBench tesztelési eredményeit az ArXiv AI publikációja 2024. március 15-én teszi közzé, ahol a LLM-ek teljesítménye a 1346 feladat alapján kerül bemutatásra.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom