Modellek & LLM2026. ápr. 17.frissítve: 19:10

Az Nvidia Nemotron OCR v2 modellje szintetikus adatokkal gyorsít és pontosít

Az Nvidia új Nemotron OCR v2 modellje jelentős pontosság- és sebességnövekedést mutat a többnyelvű optikai karakterfelismerésben, köszönhetően a szintetikus adatokkal való betanításnak.

Fotó: Carlos Gil / Unsplash

forrás: Hugging Face·AI Forradalom szerk.·2026. április 17.

Megosztás

Az Nvidia egy új, többnyelvű OCR modellt mutatott be, amely a szintetikus adatok erejét használja ki a gyors és pontos karakterfelismeréshez — írja a Hugging Face blogja.

A Nemotron OCR v2 sikerének kulcsa egy 12 millió szintetikus képből álló adatkészlet, amely hat nyelvet fed le. Ez az adathalmaz drasztikusan, 0,56–0,92-ről 0,035–0,069-re csökkentette a Normalized Edit Distance (NED) pontszámokat a nem angol nyelveken az Nvidia szerint. Az architektúra optimalizálásának köszönhetően a modell rendkívül gyors, egyetlen A100 GPU-n 34,7 oldal/másodperc sebességet ér el az Nvidia állítása szerint.

A korábbi Nemotron OCR v1 modell angol nyelven erős volt, de más nyelveken, például japánul, koreaiul, oroszul és kínaiul, magas hibaarányokkal működött. A v1-es modell mindössze 855 karaktert támogatott, ami nem volt elegendő a CJK (kínai, japán, koreai) és cirill írásrendszerekhez. A karakterkészlet 14 244 karakterre bővítése sem hozott jelentős javulást megfelelő betanítási adatok nélkül.

A szintetikus adatok új horizontja

A megoldást a szintetikus adatgenerálás hozta el. Az Nvidia mOSCAR nevű, 163 nyelvi alcsoportot lefedő webes korpuszt használ forrásszövegként, amely realisztikus szókincs- és mondathossz-eloszlást biztosít. A SynthDoG (Synthetic Document Generator) módosított változatával pixelpontos annotációkat hoznak létre szó-, sor- és bekezdésszinten, beleértve az olvasási sorrendet is. Ez a módszer lehetővé teszi a modell számára, hogy megértse a dokumentumok összetett szerkezetét, például a többoszlopos elrendezéseket és a táblázatokat.

Digitalizálás határok nélkül

A szintetikus adatgenerálási módszer elég általános ahhoz, hogy bármilyen nyelvre kiterjeszthető legyen, amelyhez léteznek betűtípusok és forrásszövegek. Az Nvidia szerint ez forradalmasíthatja az OCR fejlesztését, mivel kiküszöböli a valós adatok gyűjtésének és annotálásának költséges és időigényes folyamatát. A Nemotron OCR v2 modell és a hozzá tartozó adatkészlet (nvidia/OCR-Synthetic-Multilingual-v1) nyilvánosan elérhető a Hugging Face platformon, 2024. március 15-től.

tetszett a cikk? oszd meg →

Megosztás