ÉlőUtoljára: az iméntMa: 8
Kutatásfrissítve: 04:50

DharmaOCR: Új SSLM-ek ígérnek jobb OCR-t és alacsonyabb költségeket

A DharmaOCR Full és Lite modellek a strukturált optikai karakterfelismerés (OCR) területén ígérnek jelentős előrelépést, miközben a generálás stabilitását és a számítási költségeket is optimalizálják.

DharmaOCR: Új SSLM-ek ígérnek jobb OCR-t és alacsonyabb költségeket
Fotó: Fotó: Possessed Photography / Unsplash
forrás: ArXiv CV·AI Forradalom szerk.·
Megosztás

Két új, speciális kis nyelvi modell (SSLM) jelent meg a strukturált optikai karakterfelismerés (OCR) piacán: a DharmaOCR Full és a DharmaOCR Lite. Ezek a modellek a transzkripciós minőség, a generálás stabilitása és az inferencia költségeinek együttes optimalizálására fókuszálnak — írja az ArXiv CV.

A kutatás egy új teljesítménytesztet is bemutatott, a DharmaOCR-teljesítménytesztet, amely nyomtatott, kézzel írott és jogi/adminisztratív dokumentumokat egyaránt lefed. A teljesítményteszt egy egységes értékelési protokollt javasol, amely a hűséget és a struktúrát méri, miközben expliciten nyomon követi a szöveg degenerációját, mint elsődleges metrikát a költségek mellett.

A degeneráció nem csupán minőségi hiba; jelentősen rontja a produkciós teljesítményt, növeli a válaszidőt, csökkenti az áteresztőképességet és felfújja a számítási költségeket az abnormálisan hosszú generációk miatt. A kutatók szerint ez az első alkalom, hogy a Direct Preference Optimization (DPO) módszert alkalmazzák OCR-re.

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom