Lao nyelven is képes klónozni a hangot az új beszédszintetizátor — a szintetikus adatok korlátait áthidalva
A szintetikus adatokkal betanított beszédszintetizátorok elveszítik kifejezőerejüket. Új módszerekkel orvosolják ezt a problémát, és lehetővé teszik a zéró-shot hangklónozást laóul.

A beszédszintetizátorok (SLM) új generációja a hangképzésnél kerüli a hagyományos fonetikai átírást, de az alacsony erőforrású nyelvekben a valós adatok hiánya korlátot szab. A szintetikus adatok használata ilyenkor elsődleges stratégia, ám ez a módszer egy új problémát szül: a „stabilitás-expresszivitás szakadékot”. A szintetikus adatok javítják a fonetikai pontosságot, de elnyomják a prozódiai változatosságot, ami a kifejezőerő hanyatlásához vezet — írja az arXiv.
A kutatók két önszabályozó keretrendszert javasolnak a probléma áthidalására. A Disentanglement-Guided Self-Alignment (DGSA) a prozódia és a timbre szétválasztásával állítja helyre a kifejezőerőt komplex nyelvekben. A Temperature-Driven Self-Critique (TDSC) pedig automatizált feltárással és szűréssel stabilizálja a generálást, különösen ott, ahol kevés a valós referencia.
Az új megközelítés erősebb kereskedelmi rendszereket, köztük az ElevenLabs és a Gemini Pro modelljeit is felülmúlja. Ezenkívül lehetővé teszi a laoszi nyelv első zéró-shot hangklónozását is.