ÉlőUtoljára: 17 perceMa: 7
Kutatásfrissítve: 07:10

Koreai multimodális teljesítményteszten bukik az AI: 42%-os pontosság a legjobb nyílt modell

A KMMMU teljesítményteszten a legerősebb nyílt forráskódú AI-modellek 42%-os pontosságot értek el. A teszt a koreai nyelvre és kultúrára szabott, multimodális megértési képességet méri fel.

Koreai multimodális teljesítményteszten bukik az AI: 42%-os pontosság a legjobb nyílt modell
Fotó: Fotó: Paran Koo / Unsplash
forrás: ArXiv NLP·AI Forradalom szerk.·
Megosztás

Új teljesítménytesztet vezettek be a multimodális AI-modellek értékelésére, amely a koreai kulturális és intézményi környezetben méri fel a megértési képességet — írja az ArXiv NLP.

A KMMMU nevű teszt 3466 kérdést tartalmaz koreai vizsgákról, kilenc tudományterületet és kilenc vizuális modalitás kategóriát fed le. A teszt része egy 300 elemből álló, kifejezetten koreai specifikus részhalmaz, valamint egy 627 kérdésből álló nehéz rész is. A KMMMU nem fordított vagy angol-centrikus teljesítményteszt, hanem helyi konvenciók, hivatalos szabványok és tudományág-specifikus vizuális formátumok által formált, információban gazdag problémákra fókuszál.

A kísérletek rávilágítottak, hogy a legerősebb nyílt forráskódú modell mindössze 42,05%-os pontosságot ért el a teljes teszten. A legjobb szabadalmaztatott modell 52,42%-ot teljesített a nehéz részhalmazon. A teljesítmény jelentősen eltér a különböző tudományágak között, egyes területek szűk keresztmetszetnek bizonyultak. A koreai-specifikus kérdések esetében akár 13,43%-os lemaradás is megfigyelhető.

A hibaelemzés azt sugallja, hogy a kudarcok kevésbé a nem megfelelő érvelési mélységből, mint inkább a gyenge konvencionális tudásból fakadnak. Ez azt jelenti, hogy az AI-modelleknek nehézséget okoz a helyi normák és a kulturális kontextus megértése, ami kulcsfontosságú a koreai vizsgák sikeres teljesítéséhez.

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom