DharmaOCR: Új SSLM-ek ígérnek jobb OCR-t és alacsonyabb költségeket
A DharmaOCR Full és Lite modellek a strukturált optikai karakterfelismerés (OCR) területén ígérnek jelentős előrelépést, miközben a generálás stabilitását és a számítási költségeket is optimalizálják.

Két új, speciális kis nyelvi modell (SSLM) jelent meg a strukturált optikai karakterfelismerés (OCR) piacán: a DharmaOCR Full és a DharmaOCR Lite. Ezek a modellek a transzkripciós minőség, a generálás stabilitása és az inferencia költségeinek együttes optimalizálására fókuszálnak — írja az ArXiv CV.
A kutatás egy új teljesítménytesztet is bemutatott, a DharmaOCR-teljesítménytesztet, amely nyomtatott, kézzel írott és jogi/adminisztratív dokumentumokat egyaránt lefed. A teljesítményteszt egy egységes értékelési protokollt javasol, amely a hűséget és a struktúrát méri, miközben expliciten nyomon követi a szöveg degenerációját, mint elsődleges metrikát a költségek mellett.
A degeneráció nem csupán minőségi hiba; jelentősen rontja a produkciós teljesítményt, növeli a válaszidőt, csökkenti az áteresztőképességet és felfújja a számítási költségeket az abnormálisan hosszú generációk miatt. A kutatók szerint ez az első alkalom, hogy a Direct Preference Optimization (DPO) módszert alkalmazzák OCR-re.