Frissítve: 9 perce·Ma: 57
Kutatás
AI által generált szöveg

Több mint tíz emberi értékelésre van szükség egy megbízható AI-benchmarkhez

Legalább ezer annotáció szükséges a megbízható AI-benchmark eredményekhez — feltéve, hogy a költségvetést megfelelően osztják meg a tesztpéldányok és az értékelők között.

Több mint tíz emberi értékelésre van szükség egy megbízható AI-benchmarkhez
Fotó: Clinic Grower / Unsplash
Forrás: The DecoderSzerző: AI Forradalom szerk.
Megosztás

Egy új tanulmány, amelyet a Google Research és a Rochester Institute of Technology készített, arra mutat rá, hogy az emberi vélemények sokszínűségét figyelmen kívül hagyó általános gyakorlat miatt a mesterséges intelligencia (AI) teljesítménytesztek megbízhatósága kérdőjelezhető meg — írja a The Decoder.

Az emberi értékelők száma és a tesztpéldányok száma közötti megfelelő költségvetési egyensúly elengedhetetlen a megbízható eredményekhez. A kutatók szerint a legtöbb esetben kevesebb mint tíz értékelő alkalmazása nem elegendő a modellösszehasonlítások reprodukálhatóságához.

A hiányzó láncszem

Az eredmények azt mutatják, hogy általában több mint tíz értékelőre van szükség példánként ahhoz, hogy a modellöksszehasonlítások statisztikailag megbízhatóak legyenek. A kutatók egy szimulátort használtak, amely reprodukálja az emberi értékelési mintákat valós adathalmazok segítségével, és ezzel tesztelték a különböző költségvetési változatokat.

Ahol a számok beszélnek

Az eredmények szerint körülbelül ezer annotáció szükséges a megbízható eredményekhez, de csak akkor, ha a költségvetést helyesen osztják meg a tesztpéldányok és az értékelők között. A Google-kutatók és a Rochester Institute of Technology szerint a helyes stratégia attól függ, hogy mit akarnak mérni, és ennek alapján kell a költségvetést megosztani a tesztpéldányok és az értékelők között, 2024-ben várható további részletek a kutatásról.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom