Az SciVisAgentBench teszt 108 esettanulmányt tartalmaz a tudományos adatelemzés és visualizáció értékelésére
Kuangshi Ai és 15 társunk 12 szakértővel együttműködve hozta létre a SciVisAgentBench tesztet

Kuangshi Ai és 15 kollégája a SciVisAgentBench tesztet hozta létre, amely 108, szakértő által kidolgozott esetet tartalmaz a tudományos adatelemzés és vizualizáció (SciVis) feladatainak értékelésére. A teljesítménytesztet 12 SciVis szakértővel együttműködve fejlesztették ki, és az OpenAI által nyújtott LLM-alapú szavazás mellett determinisztikus értékelőket is alkalmaz, beleértve képi metrikákat, kódellenőrzőket és szabályalapú verifikátorokat.
A SciVisAgentBench célja, hogy hiányzó, reális, több lépéses elemzési környezetben működő teljesítménytesztet nyújtson. A jelenlegi taxonómia négy dimenziót ölel fel: alkalmazási terület, adat típusa, komplexitási szint és vizualizációs művelet. Ez a struktúra lehetővé teszi a különböző SciVis agentek, akár általános kódolási LLM-ek, rendszerszintű összehasonlítását.
Az értékelési folyamat multimodális, így a LLM-alkalmazott szavazás mellett a determinisztikus eszközök biztosítják a megbízhatóságot. A vizualizációs kimeneteket képi metrikákkal, a generált kódot pedig kódellenőrzőkkel vizsgálják. A speciális esetekhez egyedi verifikátorokat fejlesztettek ki, hogy a komplex vizualizációs feladatok is pontosan mérhetőek legyenek.
A kutatók a teljesítménytesztet élő, folyamatosan bővíthető eszközként tervezték. A cél, hogy a SciVis agentek teljesítményét rendszeresen mérhessék, azonosíthassák a hibafolyamatokat, és elősegítsék a technológiai fejlődést. A teljesítményteszt a arXiv oldalán érhető el, és a közösség számára nyitott.
Jelenleg a teljesítménytesztet a kutatók elsődleges alapként használják, hogy meghatározzák a képességbitek hiányosságait. A következő lépések között szerepel a további esetek hozzáadása, valamint a teljesítményteszt testreszabása különböző SciVis környezetekhez. A közösség számára a következő hónapokban várható a teljesítményteszt frissítése, amely új esettanulmányokat és bővített értékelési módszereket tartalmaz."