Több mint tíz emberi értékelésre van szükség egy megbízható AI-benchmarkhez
Legalább ezer annotáció szükséges a megbízható AI-benchmark eredményekhez — feltéve, hogy a költségvetést megfelelően osztják meg a tesztpéldányok és az értékelők között.

Egy új tanulmány, amelyet a Google Research és a Rochester Institute of Technology készített, arra mutat rá, hogy az emberi vélemények sokszínűségét figyelmen kívül hagyó általános gyakorlat miatt a mesterséges intelligencia (AI) teljesítménytesztek megbízhatósága kérdőjelezhető meg — írja a The Decoder.
Az emberi értékelők száma és a tesztpéldányok száma közötti megfelelő költségvetési egyensúly elengedhetetlen a megbízható eredményekhez. A kutatók szerint a legtöbb esetben kevesebb mint tíz értékelő alkalmazása nem elegendő a modellösszehasonlítások reprodukálhatóságához.
A hiányzó láncszem
Az eredmények azt mutatják, hogy általában több mint tíz értékelőre van szükség példánként ahhoz, hogy a modellöksszehasonlítások statisztikailag megbízhatóak legyenek. A kutatók egy szimulátort használtak, amely reprodukálja az emberi értékelési mintákat valós adathalmazok segítségével, és ezzel tesztelték a különböző költségvetési változatokat.
Ahol a számok beszélnek
Az eredmények szerint körülbelül ezer annotáció szükséges a megbízható eredményekhez, de csak akkor, ha a költségvetést helyesen osztják meg a tesztpéldányok és az értékelők között. A Google-kutatók és a Rochester Institute of Technology szerint a helyes stratégia attól függ, hogy mit akarnak mérni, és ennek alapján kell a költségvetést megosztani a tesztpéldányok és az értékelők között, 2024-ben várható további részletek a kutatásról.