Frissítve: 1 órája·Ma: 15
Kutatás
AI által generált szöveg

Új KWBench mérce teszteli a LLM-ek problémamegértését

A KWBench az első olyan teljesítményteszt, amely kifejezetten a nagyméretű nyelvi modellek (LLM) azon képességét értékeli, hogy önállóan felismerjék egy professzionális forgatókönyv mögöttes struktúráját.

Új KWBench mérce teszteli a LLM-ek problémamegértését
Fotó: National Cancer Institute / Unsplash
Forrás: ArXiv AISzerző: AI Forradalom szerk.
Megosztás

Új mérőeszközt vezetett be az ArXiv AI, a KWBench névre hallgató teljesítménytesztet, amely a LLM-ek problémamegértő képességét teszteli — írja az ArXiv AI.

A KWBench az első olyan teljesítményteszt, amely a nagyméretű nyelvi modellek (LLM) spontán problémamegértését vizsgálja: képes-e egy LLM azonosítani egy professzionális forgatókönyvet, mielőtt megpróbálná megoldani azt. A meglévő élvonalbeli teljesítménytesztek már telítettnek számítanak, és a legtöbb tudásalapú munka értékelése eddig csak kivonatolásra vagy feladatok specifikáció szerinti elvégzésére korlátozódott. A KWBench azonban egy korábbi lépést céloz meg: a helyzet irányító struktúrájának felismerését pusztán nyers bemenetek alapján.

A teljesítményteszt 223 feladatot tartalmaz, amelyeket szakemberektől gyűjtöttek be különböző területekről, például akvizíciók, szerződéses tárgyalások, klinikai gyógyszerészet, szervezeti politika, csaláselemzés és ösztönzőrendszer-tervezés. Minden feladat egy formális játékelméleti mintát (például megbízó-ügynök konfliktus, jelzés, mechanizmustervezési hiba, stratégiai kihagyás, koalíciós dinamika, stratégiai kölcsönös függőség) kódol, és strukturált valós adatokat tartalmaz a helyzet szakértői értelmezéséről és az előre jelzett kimenetről.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom