Minőségközpontú ranglistát indítottak az arab nagymodelleknek: a QIMMA feltárja a teljesítménytesztek hibáit
Az új platform a meglévő teljesítménytesztek minőségi problémáit küszöböli ki, pontosabb képet adva a modellek arab nyelvi teljesítményéről.

Új, minőségközpontú ranglistát indított a Technology Innovation Institute (TII UAE) az arab nagymodellek értékelésére, feltárva a meglévő teljesítménytesztek hiányosságait. A QIMMA nevű platform célja, hogy az arab LLM-ek valós nyelvi képességeit pontosan mérje, kiküszöbölve a korábbi értékelésekben rejlő szisztematikus minőségi problémákat — írja a Hugging Face közösségi cikke.
A QIMMA csapata szerint még a széles körben használt, elismert arab teljesítménytesztek is tartalmaznak olyan szisztematikus minőségi hibákat, amelyek csendben torzíthatják az értékelési eredményeket. A platform 14 forrásból származó 109 alhalmazt egyesít, több mint 52 000 mintával, 7 különböző doménben. Ezek között szerepel a kulturális, jogi, orvosi, tudományos és irodalmi tartalom, de még a kódértékelés is.
A minőség mögött álló erő
A QIMMA az első olyan arab ranglista, amely kódértékelést is integrál, a HumanEval+ és MBPP+ arabra adaptált verzióival. A fejlesztők szerint a QIMMA az egyetlen platform, amely egyesíti az öt kulcsfontosságú tulajdonságot: nyílt forráskódú, túlnyomórészt natív arab tartalommal dolgozik, szisztematikus minőségellenőrzést végez, kódértékelést kínál, és nyilvános, mintánkénti következtetési kimeneteket biztosít.
Az átláthatóság kulcsa
A minőségellenőrzési folyamat során a QIMMA egy többlépcsős validációs rendszert alkalmaz. Első lépésben két fejlett LLM, a Qwen3-235B-A22B-Instruct és a DeepSeek-V3-671B értékeli a mintákat egy 10 pontos skálán. Azok a minták, amelyek 7 pont alatti értékelést kapnak, emberi felülvizsgálatra kerülnek, ahol anyanyelvi arab szakértők ellenőrzik a kulturális kontextust, a dialektális árnyalatokat és a finom minőségi problémákat.
A validációs folyamat során a QIMMA jelentős számú hibát tárt fel a meglévő benchmarkokban. Az ArabicMMLU esetében például a minták 3,1%-át, a MizanQA esetében pedig 2,3%-át kellett elvetni a minőségi problémák miatt. A kódértékelés területén a 3LM HumanEval+ feladatok 88%-át, a 3LM MBPP+ feladatok 81%-át kellett módosítani a nyelvi finomítás, a tisztaság javítása és a konzisztencia normalizálása érdekében.
A QIMMA projektet Leen AlQadi, Ahmed Alzubaidi, Mohammed Alyafeai, Maitha Alhammadi, Shaikha Alsuwaidi, Omar saif alkaabi, Basma Boussaha és Hakim Hacid vezeti a TII UAE égisze alatt, a projekt 2024-ben várhatóan további fejlesztéseket és aktualizálásokat fog látni.