CanLegalRAGBench: Evaluating Retrieval-Augmented Generation on Canadian Case Law
A kanadai jogi AI válaszainak 8-29%-a nem támasztható alá. A hibás válaszok aránya a CanLegalRAGBench teszt szerint változó.

A mesterséges intelligencia (AI) alapú jogi asszisztensek népszerűsége növekszik, de a LLM-ek hallucinációi továbbra is komoly problémát jelentenek, aláásva az igazságszolgáltatást. A fejlesztések értékelésére ugyan léteznek teljesítménytesztek, ám ezek gyakran szintetikus lekérdezéseket használnak valós jogi forgatókönyvek helyett. Emellett a kanadai jog is alulreprezentált maradt az eddigi értékelésekben — derül ki az arXiv-en publikált kutatásból.
Ezt a hiányosságot hidalja át a CanLegalRAGBench, egy kanadai jogi kérdésekre fókuszáló teljesítményteszt. A teszt valós lekérdezéseken és szakértők által ellenőrzött, esetjogokra alapozott válaszokon nyugszik. Az értékelés kimutatta, hogy a lekérdezési teljesítmény érzékeny a tervezési döntésekre, és a nyílt forráskódú embedding modellek versenyképesek a zárt forrásúakkal szemben. Ugyanakkor az automatikus értékelések korlátait is feltárja, mivel megbüntethetik azokat a rendszereket, amelyek alternatív releváns dokumentumokat találnak meg.
Kapcsolódó: jogi AI fejlesztések
A kutatás rávilágít arra is, hogy a generált válaszok gyakran eltérnek az aranyválaszoktól. Ez megnyilvánulhat hallucinációkban, vagy túl részletes, irreleváns tartalom előállításában. A generált állítások 8-29%-a nem nyert alátámasztást a lekérdezett dokumentumokból. A kutatók reményei szerint ez a teljesítményteszt segíteni fogja a jogi RAG-rendszerek korlátainak leküzdését.
Kapcsolódó: bírósági ítéletek generálása