Új KWBench mérce teszteli a LLM-ek problémamegértését
A KWBench az első olyan teljesítményteszt, amely kifejezetten a nagyméretű nyelvi modellek (LLM) azon képességét értékeli, hogy önállóan felismerjék egy professzionális forgatókönyv mögöttes struktúráját.

Új mérőeszközt vezetett be az ArXiv AI, a KWBench névre hallgató teljesítménytesztet, amely a LLM-ek problémamegértő képességét teszteli — írja az ArXiv AI.
A KWBench az első olyan teljesítményteszt, amely a nagyméretű nyelvi modellek (LLM) spontán problémamegértését vizsgálja: képes-e egy LLM azonosítani egy professzionális forgatókönyvet, mielőtt megpróbálná megoldani azt. A meglévő élvonalbeli teljesítménytesztek már telítettnek számítanak, és a legtöbb tudásalapú munka értékelése eddig csak kivonatolásra vagy feladatok specifikáció szerinti elvégzésére korlátozódott. A KWBench azonban egy korábbi lépést céloz meg: a helyzet irányító struktúrájának felismerését pusztán nyers bemenetek alapján.
A teljesítményteszt 223 feladatot tartalmaz, amelyeket szakemberektől gyűjtöttek be különböző területekről, például akvizíciók, szerződéses tárgyalások, klinikai gyógyszerészet, szervezeti politika, csaláselemzés és ösztönzőrendszer-tervezés. Minden feladat egy formális játékelméleti mintát (például megbízó-ügynök konfliktus, jelzés, mechanizmustervezési hiba, stratégiai kihagyás, koalíciós dinamika, stratégiai kölcsönös függőség) kódol, és strukturált valós adatokat tartalmaz a helyzet szakértői értelmezéséről és az előre jelzett kimenetről.