Az IBM Granite 4.0 3B Vision modell forradalmasítja a vállalati dokumentumok feldolgozását
A Granite 4.0 3B Vision modell 86.4%-os Chart2Summary pontszámmal vezeti a mezőnyt a ChartNet teljesítményteszten.

Az IBM a Granite 4.0 3B Vision nevű kompakt vizuális nyelvi modellt (VLM) jelentette be, amelyet kifejezetten vállalati dokumentumok feldolgozására terveztek. A modell 3 milliárd paraméterrel rendelkezik, és a Granite 4.0 Micro nyelvi modellre épülő LoRA adapterként kerül kiadásra, így a vizuális és szöveges feldolgozás egységben működik. A legkiemelkedőbb eredménye a ChartNet teljesítménytesztben a Chart2Summary feladaton 86,4 %-os pontszámmal állt elő, ami a legnagyobb, a legnagyobb méretű modelleket is felülmúlja.
A modell fő célja a dokumentumok, űrlapok és strukturált vizuális elemek megbízható információkivonása. A három fő képesség: 1) táblázat-elemzés, amely képes több soros, több oszlopos táblák pontos értelmezésére; 2) diagram-értékelés, ahol a grafikonok és ábrák strukturált, gépértelmezhető formátumba, akár kóddal is lefordíthatók; 3) semantikus kulcs‑érték pár (KVP) kivonás, amely a dokumentumok különböző elrendezéseiben is helyesen azonosítja a kulcs‑érték párokat.
A ChartNet nevű adathalmaz kulcsfontosságú szerepet játszik a modell képességeinek fejlesztésében. A 1,7 millió, 24 különböző diagramtípusból és hat különböző rajzolókönyvtárból álló szintetikus datasetben minden minta öt összhangban álló elemet tartalmaz: kód, renderelt kép, adat táblázat, természetes nyelvű összefoglaló és kérdés‑válasz párok. Ez a többdimenziós megközelítés lehetővé teszi a modellek számára, hogy a diagramok vizuális formáján túl a bennük rejlő struktúrált információt is megértsék.
Technikai szempontból a DeepStack architektúra segíti a vizuális jellemzők hatékony befecskendezését. A modell a magas szintű szemantikai információkat korai rétegekbe, míg a finom részleteket későbbi rétegekbe irányítja, így egyidejűleg kezeli a tartalmat és a layoutot. Ez a megközelítés különösen előnyös a táblázat- és diagramfeladatokban, ahol a helyi pontosság kritikus.
A teljesítmény tesztekben a Granite 4.0 3B Vision a legmagasabb pontszámot érte el a PubTables‑V2, OmniDocBench‑tables és TableVQA‑extract benchmarkeken, ahol a TEDS metrikával mérve 92,1‑et (táblázatok) és 79,3‑at (teljes oldalak) kapott. A Chart2CSV feladatban 62,1 %-os pontszámmal második helyen állt, csak a Qwen3.5‑9B, amely több mint kétszer nagyobb, meghaladta.
Az IBM bejelentése alapján a modell könnyen integrálható meglévő dokumentumfeldolgozó folyamatokba, akár a Docling keretrendszerrel együtt, vagy önállóan, vizuális feladatokhoz. A következő hónapokban várható a részletes technikai dokumentáció közzététele és a felhasználói példák megjelenése, melyek segítik a vállalatokat a modell bevezetésében. A legfontosabb figyelni a hivatalos API‑k és a támogatási csomagok kiadását, amelyek meghatározzák a modell vállalati környezetben való alkalmazhatóságát.