55% alatt teljesítenek a bíróként használt LLM-ek — megbízhatatlan az értékelésük
A jelenlegi LLM-bírók megbízhatósága alacsony, a legjobb modellek is 55% alatti pontosságot érnek el az érvelés, eszközhasználat és jelentésminőség értékelésében.

A mélyreható kutatási ágensek egyre inkább automatizálják az összetett információkeresési feladatokat, többlépcsős érveléssel, eszközhasználattal és szintézissel állítva elő bizonyítékokon alapuló jelentéseket. Ezeknek az ágenseknek a növekvő szerepe skálázható, megbízható értékelést igényel, ami a LLM-eket bíróként pozicionálja a ténybeli pontosság, a bizonyítékhasználat és az érvelés minőségének felmérésére — írja az arXiv-on megjelent tanulmány.
Azonban ezen bírók megbízhatósága a mélyreható kutatási ágensek esetében még mindig kevéssé ismert, ami kritikus meta-értékelési problémát vet fel. Mielőtt a LLM-bírókat kutatási ágensek felügyeletére telepítenék, először magukat a bírókat kell értékelni.
A bizonyítékok mérlegén
A meglévő meta-értékelések két szempontból is hiányosak: egyrészt durva, szubjektív emberi preferencia-egyezésre támaszkodnak, másrészt az utasításkövetésre vagy ellenőrizhető feladatokra fókuszálnak, így a nyílt végű ágens-végrehajtások feltáratlanok maradnak.
Új értékelési módszer
E hiányosságok orvoslására vezették be a REFLECT (REliable Fine-grained LLM judge Evaluation via Controlled inTervention) nevű meta-értékelési teljesítménytesztet. A kísérletek szerint a jelenlegi LLM-bírók megbízhatatlanok: még a legjobban teljesítő modellek is 55% alatti általános pontosságot érnek el az érvelési, eszközhasználati és jelentésminőségi hibák esetén, különösen gyenge teljesítménnyel a bizonyítékok ellenőrzése terén.
A REFLECT célja, hogy ellenőrizhető, átfogó és finomított eseteket biztosítson a bírói modellek validálásához. A kutatók szerint a teljesítményteszt segíthet a fejlesztőknek abban, hogy pontosabban felmérjék, mennyire lehet bízni a LLM-ek ítéleteiben, különösen az összetett, bizonyítékokon alapuló kutatási feladatok értékelésekor. A REFLECT tesztet a Google által fejlesztett LLaMA modell esetében is alkalmazták, amely 52%-os pontosságot ért el a bizonyítékok ellenőrzésében.