ÉlőUtoljára: 6 perceMa: 8
Modellek & LLMfrissítve: 00:30

Minőségközpontú ranglistát indítottak az arab nagymodelleknek: a QIMMA feltárja a teljesítménytesztek hibáit

Az új platform a meglévő teljesítménytesztek minőségi problémáit küszöböli ki, pontosabb képet adva a modellek arab nyelvi teljesítményéről.

Minőségközpontú ranglistát indítottak az arab nagymodelleknek: a QIMMA feltárja a teljesítménytesztek hibáit
Fotó: Fotó: Fabian Kleiser / Unsplash
forrás: Hugging Face·AI Forradalom szerk.·
Megosztás

Új, minőségközpontú ranglistát indított a Technology Innovation Institute (TII UAE) az arab nagymodellek értékelésére, feltárva a meglévő teljesítménytesztek hiányosságait. A QIMMA nevű platform célja, hogy az arab LLM-ek valós nyelvi képességeit pontosan mérje, kiküszöbölve a korábbi értékelésekben rejlő szisztematikus minőségi problémákat — írja a Hugging Face közösségi cikke.

A QIMMA csapata szerint még a széles körben használt, elismert arab teljesítménytesztek is tartalmaznak olyan szisztematikus minőségi hibákat, amelyek csendben torzíthatják az értékelési eredményeket. A platform 14 forrásból származó 109 alhalmazt egyesít, több mint 52 000 mintával, 7 különböző doménben. Ezek között szerepel a kulturális, jogi, orvosi, tudományos és irodalmi tartalom, de még a kódértékelés is.

A minőség mögött álló erő

A QIMMA az első olyan arab ranglista, amely kódértékelést is integrál, a HumanEval+ és MBPP+ arabra adaptált verzióival. A fejlesztők szerint a QIMMA az egyetlen platform, amely egyesíti az öt kulcsfontosságú tulajdonságot: nyílt forráskódú, túlnyomórészt natív arab tartalommal dolgozik, szisztematikus minőségellenőrzést végez, kódértékelést kínál, és nyilvános, mintánkénti következtetési kimeneteket biztosít.

Az átláthatóság kulcsa

A minőségellenőrzési folyamat során a QIMMA egy többlépcsős validációs rendszert alkalmaz. Első lépésben két fejlett LLM, a Qwen3-235B-A22B-Instruct és a DeepSeek-V3-671B értékeli a mintákat egy 10 pontos skálán. Azok a minták, amelyek 7 pont alatti értékelést kapnak, emberi felülvizsgálatra kerülnek, ahol anyanyelvi arab szakértők ellenőrzik a kulturális kontextust, a dialektális árnyalatokat és a finom minőségi problémákat.

A validációs folyamat során a QIMMA jelentős számú hibát tárt fel a meglévő benchmarkokban. Az ArabicMMLU esetében például a minták 3,1%-át, a MizanQA esetében pedig 2,3%-át kellett elvetni a minőségi problémák miatt. A kódértékelés területén a 3LM HumanEval+ feladatok 88%-át, a 3LM MBPP+ feladatok 81%-át kellett módosítani a nyelvi finomítás, a tisztaság javítása és a konzisztencia normalizálása érdekében.

A QIMMA projektet Leen AlQadi, Ahmed Alzubaidi, Mohammed Alyafeai, Maitha Alhammadi, Shaikha Alsuwaidi, Omar saif alkaabi, Basma Boussaha és Hakim Hacid vezeti a TII UAE égisze alatt, a projekt 2024-ben várhatóan további fejlesztéseket és aktualizálásokat fog látni.

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom