Kutatás2026. máj. 14.frissítve: 06:50

DocAtlas: 82 nyelven javítja a dokumentumértést az új OCR-adatkészlet

A DocAtlas a meglévő modellalapú torzításokat küszöböli ki az alacsony erőforrású nyelveknél, ahol eddig korlátozott volt a többnyelvű dokumentumértés a szűkös betanítási adatok miatt.

Fotó: Shio Yang / Unsplash

forrás: ArXiv NLP·AI Forradalom szerk.·2026. május 14.

Megosztás

Új keretrendszert mutatott be a DocAtlas, amely 82 nyelven és 9 különböző feladaton keresztül javítja a dokumentumértést, magas minőségű optikai karakterfelismerési (OCR) adatkészleteket és benchmarkokat hozva létre — írja az arXiv-on megjelent tanulmány.

A DocAtlas két különálló folyamat-t alkalmaz a precíz strukturális annotációk előállítására. Az egyik módszer a natív DOCX dokumentumok differenciális renderelését használja, míg a jobbról balra író nyelvekhez (RTL) szintetikus LaTeX-alapú generálást alkalmaz.

A Dokumentumértés Új Tengelye

A kutatók 16 élvonalbeli modell értékelése során ismétlődő hiányosságokat tártak fel az alacsony erőforrású nyelvek feldolgozásában. Ezek a modellek gyakran pontatlanul értelmezik a dokumentumok szerkezetét és tartalmát, ami akadályozza a hatékony többnyelvű alkalmazásokat.

A DocAtlas a Direct Preference Optimization (DPO) módszert alkalmazza, amely a renderelésből származó valós adatokra támaszkodik pozitív jelként. Ez a finomhangolási technika stabil többnyelvű adaptációt eredményezett.

Áttörés a Dokumentumfeldolgozásban

A DPO használatával a modellek pontossága 1,9%-kal javult az azonos tartományon belüli (in-domain) adatokon, és 1,8%-kal a tartományon kívüli (out-of-domain) adatokon, anélkül, hogy az alapnyelv teljesítménye romlott volna. A DocAtlas keretrendszerrel a fejlesztők pontosabb és megbízhatóbb dokumentumértési rendszereket építhetnek, különösen a korábban alulreprezentált 82 nyelv esetében, mint például a magyar nyelv, 2024. évben várható további fejlesztésekkel.

tetszett a cikk? oszd meg →

Megosztás