Modellek & LLM2026. máj. 28.frissítve: 04:10

Lao nyelven is képes klónozni a hangot az új beszédszintetizátor — a szintetikus adatok korlátait áthidalva

A szintetikus adatokkal betanított beszédszintetizátorok elveszítik kifejezőerejüket. Új módszerekkel orvosolják ezt a problémát, és lehetővé teszik a zéró-shot hangklónozást laóul.

Fotó: Fotó: Vadim Bogulov / Unsplash

forrás: ArXiv NLP·AI Forradalom szerk.·2026. május 28.

Megosztás

A beszédszintetizátorok (SLM) új generációja a hangképzésnél kerüli a hagyományos fonetikai átírást, de az alacsony erőforrású nyelvekben a valós adatok hiánya korlátot szab. A szintetikus adatok használata ilyenkor elsődleges stratégia, ám ez a módszer egy új problémát szül: a „stabilitás-expresszivitás szakadékot”. A szintetikus adatok javítják a fonetikai pontosságot, de elnyomják a prozódiai változatosságot, ami a kifejezőerő hanyatlásához vezet — írja az arXiv.

A kutatók két önszabályozó keretrendszert javasolnak a probléma áthidalására. A Disentanglement-Guided Self-Alignment (DGSA) a prozódia és a timbre szétválasztásával állítja helyre a kifejezőerőt komplex nyelvekben. A Temperature-Driven Self-Critique (TDSC) pedig automatizált feltárással és szűréssel stabilizálja a generálást, különösen ott, ahol kevés a valós referencia.

Az új megközelítés erősebb kereskedelmi rendszereket, köztük az ElevenLabs és a Gemini Pro modelljeit is felülmúlja. Ezenkívül lehetővé teszi a laoszi nyelv első zéró-shot hangklónozását is.

tetszett a cikk? oszd meg →

Megosztás