Kutatás2026. ápr. 23.frissítve: 11:10

Brazil jogi szövegeken bukik az OpenAI és a Claude

Egy új, brazil jogi döntések osztályozására készült teljesítményteszten a finomhangolt BERTimbau-LoRA modell 87,6%-os pontosságot ért el, míg a GPT-4o mini és a Claude 3.5 Haiku jelentősen alulteljesített.

Fotó: Louis Reed / Unsplash

forrás: ArXiv NLP·AI Forradalom szerk.·2026. április 23.

Megosztás

A LegalBench-BR névre keresztelt új teljesítményteszt az első nyilvános adathalmaz, amely a nyelvi modellek brazil jogi szövegosztályozási képességeit méri. A Santa Catarina Állami Bíróság (TJSC) 3105 fellebbviteli eljárásából álló adatsort LLM-asszisztált címkézéssel hozták létre öt jogi területen — derül ki az arXiv-on előnyomtatott formában megjelent tanulmányból.

Az eredmények szerint a BERTimbau-LoRA, amely a modellparaméterek mindössze 0,3%-át frissítette, 87,6%-os pontosságot és 0,87-es makró-F1 pontszámot ért el. Ez 22 százalékponttal jobb, mint a Claude 3.5 Haiku, és 28 százalékponttal felülmúlja a GPT-4o mini teljesítményét.

Különösen szembetűnő a különbség a „administrativo” (közigazgatási jog) kategóriában: a GPT-4o mini F1 pontszáma 0,00, a Claude 3.5 Haiku pedig 0,08 volt, miközben a finomhangolt modell 0,91-es F1-et produkált. Mindkét kereskedelmi LLM szisztematikus torzítást mutatott a „civel” (polgári jog) felé, elnyelve az ambiguus osztályokat ahelyett, hogy megkülönböztette volna őket. Ezt a hibamódot a tartományra adaptált finomhangolás kiküszöbölte.

A tanulmány rávilágít, hogy a kontextus megértése kulcsfontosságú az emberi nyelv feldolgozásában, és bár az LLM-ek ezen a téren egyre lenyűgözőbb eredményeket mutatnak, a finomabb nyelvi képességeik értékelésére korlátozott figyelmet fordítottak. Az Apple kutatói által áprilisban publikált tanulmány szerint a betanított sűrű modellek nehezen értik meg a nüanszosabb kontextuális jellemzőket, összehasonlítva a finomhangolt modellekkel.

A LegalBench-BR eredményei azt mutatják, hogy a célzott finomhangolás jelentősen javíthatja az LLM-ek teljesítményét specifikus, komplex feladatokon, mint amilyen a jogi szövegek osztályozása. Az adathalmaz 3105 fellebbviteli eljárást tartalmaz a Santa Catarina Állami Bíróságtól.

tetszett a cikk? oszd meg →

Megosztás