Frissítve: 26 perce·Ma: 61
Modellek & LLM
AI által generált szöveg

A Nvidia Nemotron OCR v2 modellje szintetikus adatokkal gyorsít és pontosít

A Nvidia új Nemotron OCR v2 modellje jelentős pontosság- és sebességnövekedést mutat a többnyelvű optikai karakterfelismerésben, köszönhetően a szintetikus adatokkal való betanításnak.

A Nvidia Nemotron OCR v2 modellje szintetikus adatokkal gyorsít és pontosít
Fotó: Andrey Matveev / Unsplash
Forrás: Hugging FaceSzerző: AI Forradalom szerk.
Megosztás

A Nvidia egy új, többnyelvű OCR modellt mutatott be, amely a szintetikus adatok erejét használja ki a gyors és pontos karakterfelismeréshez — írja a Hugging Face blogja.

A Nemotron OCR v2 sikerének kulcsa egy 12 millió szintetikus képből álló adatkészlet, amely hat nyelvet fed le. Ez az adathalmaz drasztikusan, 0,56–0,92-ről 0,035–0,069-re csökkentette a Normalized Edit Distance (NED) pontszámokat a nem angol nyelveken a Nvidia szerint. Az architektúra optimalizálásának köszönhetően a modell rendkívül gyors, egyetlen A100 GPU-n 34,7 oldal/másodperc sebességet ér el a Nvidia állítása szerint.

A korábbi Nemotron OCR v1 modell angol nyelven erős volt, de más nyelveken, például japánul, koreaiul, oroszul és kínaiul, magas hibaarányokkal működött. A v1-es modell mindössze 855 karaktert támogatott, ami nem volt elegendő a CJK (kínai, japán, koreai) és cirill írásrendszerekhez. A karakterkészlet 14 244 karakterre bővítése sem hozott jelentős javulást megfelelő betanítási adatok nélkül.

A szintetikus adatok új horizontja

A megoldást a szintetikus adatgenerálás hozta el. A Nvidia mOSCAR nevű, 163 nyelvi alcsoportot lefedő webes korpuszt használ forrásszövegként, amely realisztikus szókincs- és mondathossz-eloszlást biztosít. A SynthDoG (Synthetic Document Generator) módosított változatával pixelpontos annotációkat hoznak létre szó-, sor- és bekezdésszinten, beleértve az olvasási sorrendet is. Ez a módszer lehetővé teszi a modell számára, hogy megértse a dokumentumok összetett szerkezetét, például a többoszlopos elrendezéseket és a táblázatokat.

Digitalizálás határok nélkül

A szintetikus adatgenerálási módszer elég általános ahhoz, hogy bármilyen nyelvre kiterjeszthető legyen, amelyhez léteznek betűtípusok és forrásszövegek. A Nvidia szerint ez forradalmasíthatja az OCR fejlesztését, mivel kiküszöböli a valós adatok gyűjtésének és annotálásának költséges és időigényes folyamatát. A Nemotron OCR v2 modell és a hozzá tartozó adatkészlet (nvidia/OCR-Synthetic-Multilingual-v1) nyilvánosan elérhető a Hugging Face platformon, 2024. március 15-től.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom