Az Apple új keretrendszere 500 ezer szavas szótárral is FST-pontosságot ígér
A keretrendszerrel a változó hosszúságú hang- vagy szöveges adatok fonetikai tartalmát rögzített dimenziós beágyazási térbe lehet leképezni.

Elméleti keretrendszert mutatott be az Apple a gépi tanulási kutatásai során az akusztikus szomszéd beágyazások értelmezéséhez — írja az Apple ML blogja. A módszerrel a szavak közötti fonetikai hasonlóság számszerűsíthető.
A távolságok valószínűségi értelmezését javasolja a cég, amely a szavak közötti fonetikai hasonlóság általános kvantitatív definícióján alapul. Ez az elméleti keret segíti a beágyazások elvi alapú megértését és alkalmazását. Elméleti és empirikus bizonyítékokat is bemutattak az egységes klaszterenkénti izotrópia közelítésének alátámasztására, ami lehetővé teszi a távolságok egyszerű euklideszi távolságokra redukálását.
Négy kísérlet igazolta a keretrendszert, és bemutatta, hogyan alkalmazható különböző problémákra. A legközelebbi szomszéd keresés hang- és szöveges beágyazások között az izolált szavak osztályozásában azonos pontosságot eredményezett, mint a véges állapotú transzducerek (FST-k), akár 500 ezer szavas szótárak esetén is.
A beágyazási távolságok 0,5 százalékpontos különbséggel adtak pontosságot a fonetikai szerkesztési távolságokhoz képest az ismeretlen szavak helyreállításában, és az emberi hallgatási kísérletekből származó angol dialektus klaszterezési hierarchiákkal is azonos eredményeket produkáltak. Az elméleti keretrendszer lehetővé teszi a beágyazások felhasználását az eszköz ébresztő szavainak várható összetévesztésének előrejelzésére is. Az összes forráskód és előre betanított modell elérhető a GitHubon.