Alkalmazások2026. máj. 6.frissítve: 12:50

Privát adatkészletekkel védi magát a "benchmaxxing" ellen az Open ASR Leaderboard

Az Open ASR Leaderboard 2023 szeptemberében indult és most új, privát adatkészletekkel frissült. A platform ezzel a lépéssel a „benchmaxxing” jelenségét kívánja elkerülni.

Fotó: Vanna Phon / Unsplash

forrás: Hugging Face·AI Forradalom szerk.·2026. május 6.

Megosztás

Új, privát adatkészletekkel frissült az Open ASR Leaderboard, hogy pontosabb és megbízhatóbb képet adjon a beszédfelismerő (ASR) modellek teljesítményéről — írja a Hugging Face blogja. A lépés célja a „benchmaxxing” megelőzése, vagyis annak elkerülése, hogy a modelleket kizárólag a teljesítményteszt tesztkészletekre optimalizálják.

Az Open ASR Leaderboard, amelyet 2023 szeptemberében indítottak, már több mint 710 ezer látogatást regisztrált. A platform a szabványosításra és a nyitottságra épül, ami lehetővé teszi a modellek és adatkészletek egységes kezelését, valamint a közösségi visszajelzések beépítését.

A bizalom hangja

Az Appen Inc. és a DataoceanAI magas minőségű angol nyelvű ASR adatkészleteket biztosított, amelyek forgatókönyv szerinti és társalgási beszédet egyaránt tartalmaznak, többféle akcentussal. Ezeket az adatkészleteket privátban tartják, hogy megakadályozzák a tesztkészlet-szennyeződést. Az átlagos WER (Word Error Rate) számítása alapértelmezetten továbbra is nyilvános adatkészleteken történik, de a felhasználók opcionálisan bevonhatják a privát adatokat is az értékelésbe.

Hangok sokasága

Az új adatok között szerepelnek ausztrál, kanadai, indiai, amerikai és brit akcentusú, olvasott és spontán beszélgetések. Például az Appen Scripted AU 1,42 órányi, az Appen Conversational IN pedig 1,37 órányi hanganyagot tartalmaz. A DataoceanAI adatkészletei még nagyobb terjedelműek, a DataoceanAI Conversational US például 8,82 órányi beszélgetést ölel fel.

A Hugging Face szerint a privát adatkészletek bevonása növeli a ranglista megbízhatóságát, mivel így kisebb az esélye a modellek „benchmaxxing” általi manipulációjának. Emellett célzott metrikákat is biztosítanak, amelyek rávilágítanak a kontrollált és telített beállítások (például forgatókönyv szerinti, amerikai akcentusú beszéd) és az árnyaltabb körülmények (társalgási és nem amerikai akcentusok) közötti különbségekre és torzításokra.

A modellek értékelése az Open ASR Leaderboardon továbbra is a GitHub-on keresztül történik, ahol a fejlesztők pull requestet nyithatnak. A nyilvános adatkészleteken elért eredményeket továbbra is jelenteni kell, míg a privát adatokon a Hugging Face végzi el a méréseket. Az Appen és a DataoceanAI nem biztosítja ezeket az adatokat ügyfeleinek, de a több adatszolgáltató bevonása segít kiegyensúlyozni az esetleges előnyöket, amelyeket egy modell egy adott szolgáltató adataival való képzésből szerezhet. A Hugging Face a 2024. január 15-ig terjedő időszakban várja a fejlesztők értékeléseit.

tetszett a cikk? oszd meg →

Megosztás