Frissítve: 14 perce·Ma: 58
Kutatás
AI által generált szöveg

Az SciVisAgentBench teszt 108 esettanulmányt tartalmaz a tudományos adatelemzés és visualizáció értékelésére

Kuangshi Ai és 15 társunk 12 szakértővel együttműködve hozta létre a SciVisAgentBench tesztet

Az SciVisAgentBench teszt 108 esettanulmányt tartalmaz a tudományos adatelemzés és visualizáció értékelésére
Fotó: P. L. / Unsplash
Forrás: ArXiv AISzerző: AI Forradalom szerk.
Megosztás

Kuangshi Ai és 15 kollégája a SciVisAgentBench tesztet hozta létre, amely 108, szakértő által kidolgozott esetet tartalmaz a tudományos adatelemzés és vizualizáció (SciVis) feladatainak értékelésére. A teljesítménytesztet 12 SciVis szakértővel együttműködve fejlesztették ki, és az OpenAI által nyújtott LLM-alapú szavazás mellett determinisztikus értékelőket is alkalmaz, beleértve képi metrikákat, kódellenőrzőket és szabályalapú verifikátorokat.

A SciVisAgentBench célja, hogy hiányzó, reális, több lépéses elemzési környezetben működő teljesítménytesztet nyújtson. A jelenlegi taxonómia négy dimenziót ölel fel: alkalmazási terület, adat típusa, komplexitási szint és vizualizációs művelet. Ez a struktúra lehetővé teszi a különböző SciVis agentek, akár általános kódolási LLM-ek, rendszerszintű összehasonlítását.

Az értékelési folyamat multimodális, így a LLM-alkalmazott szavazás mellett a determinisztikus eszközök biztosítják a megbízhatóságot. A vizualizációs kimeneteket képi metrikákkal, a generált kódot pedig kódellenőrzőkkel vizsgálják. A speciális esetekhez egyedi verifikátorokat fejlesztettek ki, hogy a komplex vizualizációs feladatok is pontosan mérhetőek legyenek.

A kutatók a teljesítménytesztet élő, folyamatosan bővíthető eszközként tervezték. A cél, hogy a SciVis agentek teljesítményét rendszeresen mérhessék, azonosíthassák a hibafolyamatokat, és elősegítsék a technológiai fejlődést. A teljesítményteszt a arXiv oldalán érhető el, és a közösség számára nyitott.

Jelenleg a teljesítménytesztet a kutatók elsődleges alapként használják, hogy meghatározzák a képességbitek hiányosságait. A következő lépések között szerepel a további esetek hozzáadása, valamint a teljesítményteszt testreszabása különböző SciVis környezetekhez. A közösség számára a következő hónapokban várható a teljesítményteszt frissítése, amely új esettanulmányokat és bővített értékelési módszereket tartalmaz."

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom