Kutatás2026. ápr. 18.frissítve: 06:50

DharmaOCR: Új SSLM-ek ígérnek jobb OCR-t és alacsonyabb költségeket

A DharmaOCR Full és Lite modellek a strukturált optikai karakterfelismerés (OCR) területén ígérnek jelentős előrelépést, miközben a generálás stabilitását és a számítási költségeket is optimalizálják.

Fotó: Sebastian Herrmann / Unsplash

forrás: ArXiv CV·AI Forradalom szerk.·2026. április 18.

Megosztás

Két új, speciális kis nyelvi modell (SSLM) jelent meg a strukturált optikai karakterfelismerés (OCR) piacán: a DharmaOCR Full és a DharmaOCR Lite. Ezek a modellek a transzkripciós minőség, a generálás stabilitása és az inferencia költségeinek együttes optimalizálására fókuszálnak — írja az ArXiv CV.

A kutatás egy új teljesítménytesztet is bemutatott, a DharmaOCR-teljesítménytesztet, amely nyomtatott, kézzel írott és jogi/adminisztratív dokumentumokat egyaránt lefed. A teljesítményteszt egy egységes értékelési protokollt javasol, amely a hűséget és a struktúrát méri, miközben expliciten nyomon követi a szöveg degenerációját, mint elsődleges metrikát a költségek mellett.

A degeneráció nem csupán minőségi hiba; jelentősen rontja a produkciós teljesítményt, növeli a válaszidőt, csökkenti az áteresztőképességet és felfújja a számítási költségeket az abnormálisan hosszú generációk miatt. A kutatók szerint ez az első alkalom, hogy a Direct Preference Optimization (DPO) módszert alkalmazzák OCR-re.

tetszett a cikk? oszd meg →

Megosztás