ÉlőUtoljára: 2 órájaMa: 21
Kutatásfrissítve: 09:50

CanLegalRAGBench: Evaluating Retrieval-Augmented Generation on Canadian Case Law

A kanadai jogi AI válaszainak 8-29%-a nem támasztható alá. A hibás válaszok aránya a CanLegalRAGBench teszt szerint változó.

CanLegalRAGBench: Evaluating Retrieval-Augmented Generation on Canadian Case Law
Fotó: Fotó: Anthony Aird / Unsplash
forrás: ArXiv NLP·AI Forradalom szerk.·
Megosztás

A mesterséges intelligencia (AI) alapú jogi asszisztensek népszerűsége növekszik, de a LLM-ek hallucinációi továbbra is komoly problémát jelentenek, aláásva az igazságszolgáltatást. A fejlesztések értékelésére ugyan léteznek teljesítménytesztek, ám ezek gyakran szintetikus lekérdezéseket használnak valós jogi forgatókönyvek helyett. Emellett a kanadai jog is alulreprezentált maradt az eddigi értékelésekben — derül ki az arXiv-en publikált kutatásból.

Ezt a hiányosságot hidalja át a CanLegalRAGBench, egy kanadai jogi kérdésekre fókuszáló teljesítményteszt. A teszt valós lekérdezéseken és szakértők által ellenőrzött, esetjogokra alapozott válaszokon nyugszik. Az értékelés kimutatta, hogy a lekérdezési teljesítmény érzékeny a tervezési döntésekre, és a nyílt forráskódú embedding modellek versenyképesek a zárt forrásúakkal szemben. Ugyanakkor az automatikus értékelések korlátait is feltárja, mivel megbüntethetik azokat a rendszereket, amelyek alternatív releváns dokumentumokat találnak meg.

Kapcsolódó: jogi AI fejlesztések

A kutatás rávilágít arra is, hogy a generált válaszok gyakran eltérnek az aranyválaszoktól. Ez megnyilvánulhat hallucinációkban, vagy túl részletes, irreleváns tartalom előállításában. A generált állítások 8-29%-a nem nyert alátámasztást a lekérdezett dokumentumokból. A kutatók reményei szerint ez a teljesítményteszt segíteni fogja a jogi RAG-rendszerek korlátainak leküzdését.

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom