Kutatás2026. jún. 1.frissítve: 09:50

CanLegalRAGBench: Evaluating Retrieval-Augmented Generation on Canadian Case Law

A kanadai jogi AI válaszainak 8-29%-a nem támasztható alá. A hibás válaszok aránya a CanLegalRAGBench teszt szerint változó.

Fotó: Fotó: Anthony Aird / Unsplash

forrás: ArXiv NLP·AI Forradalom szerk.·2026. június 1.

Megosztás

A mesterséges intelligencia (AI) alapú jogi asszisztensek népszerűsége növekszik, de a LLM-ek hallucinációi továbbra is komoly problémát jelentenek, aláásva az igazságszolgáltatást. A fejlesztések értékelésére ugyan léteznek teljesítménytesztek, ám ezek gyakran szintetikus lekérdezéseket használnak valós jogi forgatókönyvek helyett. Emellett a kanadai jog is alulreprezentált maradt az eddigi értékelésekben — derül ki az arXiv-en publikált kutatásból.

Ezt a hiányosságot hidalja át a CanLegalRAGBench, egy kanadai jogi kérdésekre fókuszáló teljesítményteszt. A teszt valós lekérdezéseken és szakértők által ellenőrzött, esetjogokra alapozott válaszokon nyugszik. Az értékelés kimutatta, hogy a lekérdezési teljesítmény érzékeny a tervezési döntésekre, és a nyílt forráskódú embedding modellek versenyképesek a zárt forrásúakkal szemben. Ugyanakkor az automatikus értékelések korlátait is feltárja, mivel megbüntethetik azokat a rendszereket, amelyek alternatív releváns dokumentumokat találnak meg.

Kapcsolódó: jogi AI fejlesztések

A kutatás rávilágít arra is, hogy a generált válaszok gyakran eltérnek az aranyválaszoktól. Ez megnyilvánulhat hallucinációkban, vagy túl részletes, irreleváns tartalom előállításában. A generált állítások 8-29%-a nem nyert alátámasztást a lekérdezett dokumentumokból. A kutatók reményei szerint ez a teljesítményteszt segíteni fogja a jogi RAG-rendszerek korlátainak leküzdését.

Kapcsolódó: bírósági ítéletek generálása

tetszett a cikk? oszd meg →

Megosztás