A komplex ábrák megfelezik a legjobb AI-modellek teljesítményét
A legfejlettebb, zárt forráskódú AI-modellek is közel felére esik vissza a teljesítményük, amikor valós adatokból épített, összetett vizualizációkat kell értelmezniük.

A mesterséges intelligencia modellek jelentős teljesítménycsökkenést mutatnak, ha egyszerű ábrák helyett komplex, több részből álló vizualizációkkal találkoznak — derül ki a kínai kutatók által készített RealChart2Code benchmarkból, írja a The Decoder.
A RealChart2Code több mint 2800 tesztesetet tartalmaz, amelyeket valós Kaggle adathalmazokból építettek fel. Korábbi teljesítménytesztek, mint a Plot2Code vagy a ChartMimic, főként szintetikus adatokra és egyszerű, önálló ábrákra támaszkodtak. Az új teszt azonban komplex kompozit elrendezéseket, 50 különböző ábratípust és nagy nyers adatfájlokat is bevet.
A vizuális akadályok
A teljesítményteszt három feladatban méri a modelleket: az ábrareplikációban a modellnek kizárólag egy kép alapján kell vizualizációs kódot generálnia. Az ábrareprodukció során a nyers adatok is rendelkezésre állnak, míg az ábrafinomítás egy valós fejlesztési munkafolyamatot szimulál, ahol a modellnek hibás kódot kell javítania párbeszédes formában.
A tesztelt 14 modell közül az Anthropic Claude 4.5 Opus érte el a legmagasabb átlagpontszámot 8,2-vel (nyolc vizuális pontossági kritérium alapján). A Google Gemini 3 Pro Preview szorosan mögötte végzett 8,1 ponttal, és az alapvető ábrareplikációban 9,0 ponttal a legjobb volt. Az OpenAI GPT-5.1 modellje 5,4 ponttal jelentősen lemaradt.
A hibák mélyén
A kutatók „komplexitási szakadéknak” nevezik azt a jelenséget, hogy a Gemini 3 Pro Preview például a ChartMimic teljesítményteszten több mint 96 százalékos (normalizált) eredményt ér el, de a RealChart2Code-on körülbelül 50 százalékra esik vissza. A nyílt forráskódú modellek, mint a Qwen3-VL-235B, még drasztikusabb zuhanást mutatnak: a ChartMimic-en elért 85 százalékos eredményük az új teljesítményteszten 25 százalék alá csökken.
A hibaelemzés két különböző mintázatot tárt fel: a nyílt forráskódú modellek gyakran nem létező könyvtárakat találnak ki, míg a zárt forráskódú modellek ritkán produkálnak szintaktikai hibákat, de az adatokat rossz tengelyekhez rendelik, vagy a vizuális attribútumok nem egyeznek a specifikációval. A teljesítményteszt és a kódja elérhető a GitHubon 2024. március 15-től.