Kutatás2026. ápr. 7.frissítve: 06:26

A XpertBench felrázza a LLM-tesztelést, 1346 feladattal méri a szakértelmet

A 80 kategóriát átfogó adatbázist több mint ezer iparági és kutatói szakértő állította össze, ezzel garantálva a feladatok valósághűségét és relevanciáját.

Fotó: Fotó: Campaign Creators / Unsplash

forrás: ArXiv AI·AI Forradalom szerk.·2026. április 7.

Megosztás

A XpertBench nevű új mérőeszköz 1346 feladattal teszteli a nagy nyelvi modellek (LLM) valós szakértelmét, 80 különböző kategóriában — derül ki az ArXiv AI friss publikációjából.

A hagyományos teljesítménytesztek korlátait felismerve fejlesztették ki a rendszert, mivel a meglévő keretrendszerek gyakran túl szűk területet fednek le, általános feladatokra támaszkodnak, vagy torzítanak az öntesztelés miatt. A XpertBench célja, hogy áthidalja ezt a szakadékot, és hiteles képet adjon a LLM-ek teljesítményéről olyan területeken, mint a pénzügy, az egészségügy, a jog, az oktatás, valamint a STEM és humán tudományok.

A feladatokat több mint ezer, az adott szakterületen dolgozó szakértő – köztük élvonalbeli kutatók és jelentős klinikai vagy ipari tapasztalattal rendelkező gyakorlati szakemberek – állította össze. Ez a módszer biztosítja, hogy a tesztek valóban a valós életből vett, komplex, nyitott végű problémákat tükrözzék, amelyek valódi szakértelmet igényelnek.

A szakértelem mérlegén

Minden egyes feladathoz részletes értékelési rubrikákat is kidolgoztak, amelyek jellemzően 15-40 súlyozott ellenőrzőpontot tartalmaznak. Ezek a rubrikák pontosan leírják, hogyan néz ki az elvárható teljesítmény az egyes kritériumok mentén, segítve a LLM-ek válaszainak objektív és részletes értékelését.

A valóság tükrében

A XpertBench tesztelési eredményeit az ArXiv AI publikációja 2024. március 15-én teszi közzé, ahol a LLM-ek teljesítménye a 1346 feladat alapján kerül bemutatásra.

tetszett a cikk? oszd meg →

Megosztás