Kutatás2026. ápr. 14.frissítve: 18:02

Az Apple új keretrendszere 500 ezer szavas szótárral is FST-pontosságot ígér

A keretrendszerrel a változó hosszúságú hang- vagy szöveges adatok fonetikai tartalmát rögzített dimenziós beágyazási térbe lehet leképezni.

Fotó: Vanna Phon / Unsplash

forrás: Apple ML·AI Forradalom szerk.·2026. április 14.

Megosztás

Elméleti keretrendszert mutatott be az Apple a gépi tanulási kutatásai során az akusztikus szomszéd beágyazások értelmezéséhez — írja az Apple ML blogja. A módszerrel a szavak közötti fonetikai hasonlóság számszerűsíthető.

A távolságok valószínűségi értelmezését javasolja a cég, amely a szavak közötti fonetikai hasonlóság általános kvantitatív definícióján alapul. Ez az elméleti keret segíti a beágyazások elvi alapú megértését és alkalmazását. Elméleti és empirikus bizonyítékokat is bemutattak az egységes klaszterenkénti izotrópia közelítésének alátámasztására, ami lehetővé teszi a távolságok egyszerű euklideszi távolságokra redukálását.

Négy kísérlet igazolta a keretrendszert, és bemutatta, hogyan alkalmazható különböző problémákra. A legközelebbi szomszéd keresés hang- és szöveges beágyazások között az izolált szavak osztályozásában azonos pontosságot eredményezett, mint a véges állapotú transzducerek (FST-k), akár 500 ezer szavas szótárak esetén is.

A beágyazási távolságok 0,5 százalékpontos különbséggel adtak pontosságot a fonetikai szerkesztési távolságokhoz képest az ismeretlen szavak helyreállításában, és az emberi hallgatási kísérletekből származó angol dialektus klaszterezési hierarchiákkal is azonos eredményeket produkáltak. Az elméleti keretrendszer lehetővé teszi a beágyazások felhasználását az eszköz ébresztő szavainak várható összetévesztésének előrejelzésére is. Az összes forráskód és előre betanított modell elérhető a GitHubon.

tetszett a cikk? oszd meg →

Megosztás