17-szeres javulást hoz az indiai beszédfelismerésben egy új TTS-STT módszer
A digitális számok, pénznemek, címek és márkanevek felismerése eddig gyenge pontja volt az indiai nyelvek beszédfelismerő rendszereinek, most egy új megközelítés 17-szeres javulást ígér.

Az indiai nyelvek, mint a telugu, hindi és tamil beszédfelismerő rendszerei eddig komoly kihívásokkal küzdöttek a speciális területeken, például a számok, pénzösszegek, címek vagy márkanevek pontos azonosításában. Ezt a hiányosságot próbálja orvosolni egy új kutatás, amely egy TTS-STT (szövegből beszédbe, beszédből szövegbe) körfolyamattal szintetikus adatokkal javítja a rendszerek teljesítményét — írja az arXiv:2605.03073v1 előnyomtatott tanulmánya.
A kutatók szerint a meglévő nyílt forráskódú és kereskedelmi rendszerek egyaránt alulteljesítenek ezeken a niche területeken. Például egy szintetikus, entitás-sűrű telugu tesztkészleten a vasista22/whisper-telugu-large-v2 nyílt forráskódú rendszer Entity-Hit-Rate (EHR) értéke mindössze 0,027 volt, míg a Deepgram Nova-3 kereskedelmi rendszer is csak 0,16-ot ért el.
A szintetikus áttörés
A megoldás egy önálló TTS-STT körfolyamat lett, amely egy nyílt forráskódú indiai TTS-rendszert használ. Ezzel mintegy 22 000 entitás-sűrű, indiai-angol kódkeverékű hangmintát szintetizáltak kevesebb mint 50 dolláros marginális költséggel. A vasista22 modellre épülő LoRA finomhangolással az EHR érték 0,473-ra nőtt a telugu tesztkészleten, ami a nyílt forráskódú rendszerekhez képest 17-szeres, a kereskedelmi rendszerekhez képest pedig 3-szoros javulást jelent a kutatók szerint.
Áttörés a beszédfelismerésben
A módszer más nyelveken is hasonló javulást mutatott: hindinél az EHR 0,337 (7-szeres javulás a vasista22-höz képest), tamilnál pedig 0,543 (22-szeres javulás a vasista22-höz és a Deepgramhez képest). A kutatók az arXiv:2605.03073v1 tanulmányban publikálták eredményeiket, 2024. március 15-én.