ÉlőUtoljára: 19 perceMa: 6
Kutatásfrissítve: 11:50

55% alatt teljesítenek a bíróként használt LLM-ek — megbízhatatlan az értékelésük

A jelenlegi LLM-bírók megbízhatósága alacsony, a legjobb modellek is 55% alatti pontosságot érnek el az érvelés, eszközhasználat és jelentésminőség értékelésében.

55% alatt teljesítenek a bíróként használt LLM-ek — megbízhatatlan az értékelésük
Fotó: Fotó: Sasun Bughdaryan / Unsplash
forrás: ArXiv NLP·AI Forradalom szerk.·
Megosztás

A mélyreható kutatási ágensek egyre inkább automatizálják az összetett információkeresési feladatokat, többlépcsős érveléssel, eszközhasználattal és szintézissel állítva elő bizonyítékokon alapuló jelentéseket. Ezeknek az ágenseknek a növekvő szerepe skálázható, megbízható értékelést igényel, ami a LLM-eket bíróként pozicionálja a ténybeli pontosság, a bizonyítékhasználat és az érvelés minőségének felmérésére — írja az arXiv-on megjelent tanulmány.

Azonban ezen bírók megbízhatósága a mélyreható kutatási ágensek esetében még mindig kevéssé ismert, ami kritikus meta-értékelési problémát vet fel. Mielőtt a LLM-bírókat kutatási ágensek felügyeletére telepítenék, először magukat a bírókat kell értékelni.

A bizonyítékok mérlegén

A meglévő meta-értékelések két szempontból is hiányosak: egyrészt durva, szubjektív emberi preferencia-egyezésre támaszkodnak, másrészt az utasításkövetésre vagy ellenőrizhető feladatokra fókuszálnak, így a nyílt végű ágens-végrehajtások feltáratlanok maradnak.

Új értékelési módszer

E hiányosságok orvoslására vezették be a REFLECT (REliable Fine-grained LLM judge Evaluation via Controlled inTervention) nevű meta-értékelési teljesítménytesztet. A kísérletek szerint a jelenlegi LLM-bírók megbízhatatlanok: még a legjobban teljesítő modellek is 55% alatti általános pontosságot érnek el az érvelési, eszközhasználati és jelentésminőségi hibák esetén, különösen gyenge teljesítménnyel a bizonyítékok ellenőrzése terén.

A REFLECT célja, hogy ellenőrizhető, átfogó és finomított eseteket biztosítson a bírói modellek validálásához. A kutatók szerint a teljesítményteszt segíthet a fejlesztőknek abban, hogy pontosabban felmérjék, mennyire lehet bízni a LLM-ek ítéleteiben, különösen az összetett, bizonyítékokon alapuló kutatási feladatok értékelésekor. A REFLECT tesztet a Google által fejlesztett LLaMA modell esetében is alkalmazták, amely 52%-os pontosságot ért el a bizonyítékok ellenőrzésében.

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom