Frissítve: 1 órája·Ma: 15
Kutatás
AI által generált szöveg

Brazil jogi szövegeken bukik az OpenAI és a Claude

Egy új, brazil jogi döntések osztályozására készült teljesítményteszten a finomhangolt BERTimbau-LoRA modell 87,6%-os pontosságot ért el, míg a GPT-4o mini és a Claude 3.5 Haiku jelentősen alulteljesített.

Brazil jogi szövegeken bukik az OpenAI és a Claude
Fotó: Logan Gutierrez / Unsplash
Forrás: ArXiv NLPSzerző: AI Forradalom szerk.
Megosztás

A LegalBench-BR névre keresztelt új teljesítményteszt az első nyilvános adathalmaz, amely a nyelvi modellek brazil jogi szövegosztályozási képességeit méri. A Santa Catarina Állami Bíróság (TJSC) 3105 fellebbviteli eljárásából álló adatsort LLM-asszisztált címkézéssel hozták létre öt jogi területen — derül ki az arXiv-on előnyomtatott formában megjelent tanulmányból.

Az eredmények szerint a BERTimbau-LoRA, amely a modellparaméterek mindössze 0,3%-át frissítette, 87,6%-os pontosságot és 0,87-es makró-F1 pontszámot ért el. Ez 22 százalékponttal jobb, mint a Claude 3.5 Haiku, és 28 százalékponttal felülmúlja a GPT-4o mini teljesítményét.

Különösen szembetűnő a különbség a „administrativo” (közigazgatási jog) kategóriában: a GPT-4o mini F1 pontszáma 0,00, a Claude 3.5 Haiku pedig 0,08 volt, miközben a finomhangolt modell 0,91-es F1-et produkált. Mindkét kereskedelmi LLM szisztematikus torzítást mutatott a „civel” (polgári jog) felé, elnyelve az ambiguus osztályokat ahelyett, hogy megkülönböztette volna őket. Ezt a hibamódot a tartományra adaptált finomhangolás kiküszöbölte.

A tanulmány rávilágít, hogy a kontextus megértése kulcsfontosságú az emberi nyelv feldolgozásában, és bár a LLM-ek ezen a téren egyre lenyűgözőbb eredményeket mutatnak, a finomabb nyelvi képességeik értékelésére korlátozott figyelmet fordítottak. Az Apple kutatói által áprilisban publikált tanulmány szerint a betanított sűrű modellek nehezen értik meg a nüanszosabb kontextuális jellemzőket, összehasonlítva a finomhangolt modellekkel.

A LegalBench-BR eredményei azt mutatják, hogy a célzott finomhangolás jelentősen javíthatja a LLM-ek teljesítményét specifikus, komplex feladatokon, mint amilyen a jogi szövegek osztályozása. Az adathalmaz 3105 fellebbviteli eljárást tartalmaz a Santa Catarina Állami Bíróságtól.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom