DocAtlas: 82 nyelven javítja a dokumentumértést az új OCR-adatkészlet
A DocAtlas a meglévő modellalapú torzításokat küszöböli ki az alacsony erőforrású nyelveknél, ahol eddig korlátozott volt a többnyelvű dokumentumértés a szűkös betanítási adatok miatt.

Új keretrendszert mutatott be a DocAtlas, amely 82 nyelven és 9 különböző feladaton keresztül javítja a dokumentumértést, magas minőségű optikai karakterfelismerési (OCR) adatkészleteket és benchmarkokat hozva létre — írja az arXiv-on megjelent tanulmány.
A DocAtlas két különálló folyamat-t alkalmaz a precíz strukturális annotációk előállítására. Az egyik módszer a natív DOCX dokumentumok differenciális renderelését használja, míg a jobbról balra író nyelvekhez (RTL) szintetikus LaTeX-alapú generálást alkalmaz.
A Dokumentumértés Új Tengelye
A kutatók 16 élvonalbeli modell értékelése során ismétlődő hiányosságokat tártak fel az alacsony erőforrású nyelvek feldolgozásában. Ezek a modellek gyakran pontatlanul értelmezik a dokumentumok szerkezetét és tartalmát, ami akadályozza a hatékony többnyelvű alkalmazásokat.
A DocAtlas a Direct Preference Optimization (DPO) módszert alkalmazza, amely a renderelésből származó valós adatokra támaszkodik pozitív jelként. Ez a finomhangolási technika stabil többnyelvű adaptációt eredményezett.
Áttörés a Dokumentumfeldolgozásban
A DPO használatával a modellek pontossága 1,9%-kal javult az azonos tartományon belüli (in-domain) adatokon, és 1,8%-kal a tartományon kívüli (out-of-domain) adatokon, anélkül, hogy az alapnyelv teljesítménye romlott volna. A DocAtlas keretrendszerrel a fejlesztők pontosabb és megbízhatóbb dokumentumértési rendszereket építhetnek, különösen a korábban alulreprezentált 82 nyelv esetében, mint például a magyar nyelv, 2024. évben várható további fejlesztésekkel.