Kutatás2026. ápr. 20.frissítve: 06:50

Új KWBench mérce teszteli az LLM-ek problémamegértését

A KWBench az első olyan teljesítményteszt, amely kifejezetten a nagyméretű nyelvi modellek (LLM) azon képességét értékeli, hogy önállóan felismerjék egy professzionális forgatókönyv mögöttes struktúráját.

Fotó: Mauro Romero / Unsplash

forrás: ArXiv AI·AI Forradalom szerk.·2026. április 20.

Megosztás

Új mérőeszközt vezetett be az ArXiv AI, a KWBench névre hallgató teljesítménytesztet, amely az LLM-ek problémamegértő képességét teszteli — írja az ArXiv AI.

A KWBench az első olyan teljesítményteszt, amely a nagyméretű nyelvi modellek (LLM) spontán problémamegértését vizsgálja: képes-e egy LLM azonosítani egy professzionális forgatókönyvet, mielőtt megpróbálná megoldani azt. A meglévő élvonalbeli teljesítménytesztek már telítettnek számítanak, és a legtöbb tudásalapú munka értékelése eddig csak kivonatolásra vagy feladatok specifikáció szerinti elvégzésére korlátozódott. A KWBench azonban egy korábbi lépést céloz meg: a helyzet irányító struktúrájának felismerését pusztán nyers bemenetek alapján.

A teljesítményteszt 223 feladatot tartalmaz, amelyeket szakemberektől gyűjtöttek be különböző területekről, például akvizíciók, szerződéses tárgyalások, klinikai gyógyszerészet, szervezeti politika, csaláselemzés és ösztönzőrendszer-tervezés. Minden feladat egy formális játékelméleti mintát (például megbízó-ügynök konfliktus, jelzés, mechanizmustervezési hiba, stratégiai kihagyás, koalíciós dinamika, stratégiai kölcsönös függőség) kódol, és strukturált valós adatokat tartalmaz a helyzet szakértői értelmezéséről és az előre jelzett kimenetről.

tetszett a cikk? oszd meg →

Megosztás