Kutatás2026. máj. 21.frissítve: 13:50

55% alatt teljesítenek a bíróként használt LLM-ek — megbízhatatlan az értékelésük

A jelenlegi LLM-bírók megbízhatósága alacsony, a legjobb modellek is 55% alatti pontosságot érnek el az érvelés, eszközhasználat és jelentésminőség értékelésében.

Fotó: Sasun Bughdaryan / Unsplash

forrás: ArXiv NLP·AI Forradalom szerk.·2026. május 21.

Megosztás

A mélyreható kutatási ágensek egyre inkább automatizálják az összetett információkeresési feladatokat, többlépcsős érveléssel, eszközhasználattal és szintézissel állítva elő bizonyítékokon alapuló jelentéseket. Ezeknek az ágenseknek a növekvő szerepe skálázható, megbízható értékelést igényel, ami az LLM-eket bíróként pozicionálja a ténybeli pontosság, a bizonyítékhasználat és az érvelés minőségének felmérésére — írja az arXiv-on megjelent tanulmány.

Azonban ezen bírók megbízhatósága a mélyreható kutatási ágensek esetében még mindig kevéssé ismert, ami kritikus meta-értékelési problémát vet fel. Mielőtt az LLM-bírókat kutatási ágensek felügyeletére telepítenék, először magukat a bírókat kell értékelni.

A bizonyítékok mérlegén

A meglévő meta-értékelések két szempontból is hiányosak: egyrészt durva, szubjektív emberi preferencia-egyezésre támaszkodnak, másrészt az utasításkövetésre vagy ellenőrizhető feladatokra fókuszálnak, így a nyílt végű ágens-végrehajtások feltáratlanok maradnak.

Új értékelési módszer

E hiányosságok orvoslására vezették be a REFLECT (REliable Fine-grained LLM judge Evaluation via Controlled inTervention) nevű meta-értékelési teljesítménytesztet. A kísérletek szerint a jelenlegi LLM-bírók megbízhatatlanok: még a legjobban teljesítő modellek is 55% alatti általános pontosságot érnek el az érvelési, eszközhasználati és jelentésminőségi hibák esetén, különösen gyenge teljesítménnyel a bizonyítékok ellenőrzése terén.

A REFLECT célja, hogy ellenőrizhető, átfogó és finomított eseteket biztosítson a bírói modellek validálásához. A kutatók szerint a teljesítményteszt segíthet a fejlesztőknek abban, hogy pontosabban felmérjék, mennyire lehet bízni az LLM-ek ítéleteiben, különösen az összetett, bizonyítékokon alapuló kutatási feladatok értékelésekor. A REFLECT tesztet a Google által fejlesztett LLaMA modell esetében is alkalmazták, amely 52%-os pontosságot ért el a bizonyítékok ellenőrzésében.

tetszett a cikk? oszd meg →

Megosztás