Kutatás2026. ápr. 5.frissítve: 17:57

Több mint tíz emberi értékelésre van szükség egy megbízható AI-benchmarkhez

Legalább ezer annotáció szükséges a megbízható AI-benchmark eredményekhez — feltéve, hogy a költségvetést megfelelően osztják meg a tesztpéldányok és az értékelők között.

Fotó: Fotó: Clinic Grower / Unsplash

forrás: The Decoder·AI Forradalom szerk.·2026. április 5.

Megosztás

Egy új tanulmány, amelyet a Google Research és a Rochester Institute of Technology készített, arra mutat rá, hogy az emberi vélemények sokszínűségét figyelmen kívül hagyó általános gyakorlat miatt a mesterséges intelligencia (AI) teljesítménytesztek megbízhatósága kérdőjelezhető meg — írja a The Decoder.

Az emberi értékelők száma és a tesztpéldányok száma közötti megfelelő költségvetési egyensúly elengedhetetlen a megbízható eredményekhez. A kutatók szerint a legtöbb esetben kevesebb mint tíz értékelő alkalmazása nem elegendő a modellösszehasonlítások reprodukálhatóságához.

A hiányzó láncszem

Az eredmények azt mutatják, hogy általában több mint tíz értékelőre van szükség példánként ahhoz, hogy a modellöksszehasonlítások statisztikailag megbízhatóak legyenek. A kutatók egy szimulátort használtak, amely reprodukálja az emberi értékelési mintákat valós adathalmazok segítségével, és ezzel tesztelték a különböző költségvetési változatokat.

Ahol a számok beszélnek

Az eredmények szerint körülbelül ezer annotáció szükséges a megbízható eredményekhez, de csak akkor, ha a költségvetést helyesen osztják meg a tesztpéldányok és az értékelők között. A Google-kutatók és a Rochester Institute of Technology szerint a helyes stratégia attól függ, hogy mit akarnak mérni, és ennek alapján kell a költségvetést megosztani a tesztpéldányok és az értékelők között, 2024-ben várható további részletek a kutatásról.

tetszett a cikk? oszd meg →

Megosztás