A XpertBench felrázza a LLM-tesztelést, 1346 feladattal méri a szakértelmet
A 80 kategóriát átfogó adatbázist több mint ezer iparági és kutatói szakértő állította össze, ezzel garantálva a feladatok valósághűségét és relevanciáját.

A XpertBench nevű új mérőeszköz 1346 feladattal teszteli a nagy nyelvi modellek (LLM) valós szakértelmét, 80 különböző kategóriában — derül ki az ArXiv AI friss publikációjából.
A hagyományos teljesítménytesztek korlátait felismerve fejlesztették ki a rendszert, mivel a meglévő keretrendszerek gyakran túl szűk területet fednek le, általános feladatokra támaszkodnak, vagy torzítanak az öntesztelés miatt. A XpertBench célja, hogy áthidalja ezt a szakadékot, és hiteles képet adjon a LLM-ek teljesítményéről olyan területeken, mint a pénzügy, az egészségügy, a jog, az oktatás, valamint a STEM és humán tudományok.
A feladatokat több mint ezer, az adott szakterületen dolgozó szakértő – köztük élvonalbeli kutatók és jelentős klinikai vagy ipari tapasztalattal rendelkező gyakorlati szakemberek – állította össze. Ez a módszer biztosítja, hogy a tesztek valóban a valós életből vett, komplex, nyitott végű problémákat tükrözzék, amelyek valódi szakértelmet igényelnek.
A szakértelem mérlegén
Minden egyes feladathoz részletes értékelési rubrikákat is kidolgoztak, amelyek jellemzően 15-40 súlyozott ellenőrzőpontot tartalmaznak. Ezek a rubrikák pontosan leírják, hogyan néz ki az elvárható teljesítmény az egyes kritériumok mentén, segítve a LLM-ek válaszainak objektív és részletes értékelését.
A valóság tükrében
A XpertBench tesztelési eredményeit az ArXiv AI publikációja 2024. március 15-én teszi közzé, ahol a LLM-ek teljesítménye a 1346 feladat alapján kerül bemutatásra.