A Nvidia Nemotron OCR v2 modellje szintetikus adatokkal gyorsít és pontosít
A Nvidia új Nemotron OCR v2 modellje jelentős pontosság- és sebességnövekedést mutat a többnyelvű optikai karakterfelismerésben, köszönhetően a szintetikus adatokkal való betanításnak.

A Nvidia egy új, többnyelvű OCR modellt mutatott be, amely a szintetikus adatok erejét használja ki a gyors és pontos karakterfelismeréshez — írja a Hugging Face blogja.
A Nemotron OCR v2 sikerének kulcsa egy 12 millió szintetikus képből álló adatkészlet, amely hat nyelvet fed le. Ez az adathalmaz drasztikusan, 0,56–0,92-ről 0,035–0,069-re csökkentette a Normalized Edit Distance (NED) pontszámokat a nem angol nyelveken a Nvidia szerint. Az architektúra optimalizálásának köszönhetően a modell rendkívül gyors, egyetlen A100 GPU-n 34,7 oldal/másodperc sebességet ér el a Nvidia állítása szerint.
A korábbi Nemotron OCR v1 modell angol nyelven erős volt, de más nyelveken, például japánul, koreaiul, oroszul és kínaiul, magas hibaarányokkal működött. A v1-es modell mindössze 855 karaktert támogatott, ami nem volt elegendő a CJK (kínai, japán, koreai) és cirill írásrendszerekhez. A karakterkészlet 14 244 karakterre bővítése sem hozott jelentős javulást megfelelő betanítási adatok nélkül.
A szintetikus adatok új horizontja
A megoldást a szintetikus adatgenerálás hozta el. A Nvidia mOSCAR nevű, 163 nyelvi alcsoportot lefedő webes korpuszt használ forrásszövegként, amely realisztikus szókincs- és mondathossz-eloszlást biztosít. A SynthDoG (Synthetic Document Generator) módosított változatával pixelpontos annotációkat hoznak létre szó-, sor- és bekezdésszinten, beleértve az olvasási sorrendet is. Ez a módszer lehetővé teszi a modell számára, hogy megértse a dokumentumok összetett szerkezetét, például a többoszlopos elrendezéseket és a táblázatokat.
Digitalizálás határok nélkül
A szintetikus adatgenerálási módszer elég általános ahhoz, hogy bármilyen nyelvre kiterjeszthető legyen, amelyhez léteznek betűtípusok és forrásszövegek. A Nvidia szerint ez forradalmasíthatja az OCR fejlesztését, mivel kiküszöböli a valós adatok gyűjtésének és annotálásának költséges és időigényes folyamatát. A Nemotron OCR v2 modell és a hozzá tartozó adatkészlet (nvidia/OCR-Synthetic-Multilingual-v1) nyilvánosan elérhető a Hugging Face platformon, 2024. március 15-től.