ÉlőUtoljára: 1 órájaMa: 1
Modellek & LLMfrissítve: 04:10

Lao nyelven is képes klónozni a hangot az új beszédszintetizátor — a szintetikus adatok korlátait áthidalva

A szintetikus adatokkal betanított beszédszintetizátorok elveszítik kifejezőerejüket. Új módszerekkel orvosolják ezt a problémát, és lehetővé teszik a zéró-shot hangklónozást laóul.

Lao nyelven is képes klónozni a hangot az új beszédszintetizátor — a szintetikus adatok korlátait áthidalva
Fotó: Fotó: Vadim Bogulov / Unsplash
forrás: ArXiv NLP·AI Forradalom szerk.·
Megosztás

A beszédszintetizátorok (SLM) új generációja a hangképzésnél kerüli a hagyományos fonetikai átírást, de az alacsony erőforrású nyelvekben a valós adatok hiánya korlátot szab. A szintetikus adatok használata ilyenkor elsődleges stratégia, ám ez a módszer egy új problémát szül: a „stabilitás-expresszivitás szakadékot”. A szintetikus adatok javítják a fonetikai pontosságot, de elnyomják a prozódiai változatosságot, ami a kifejezőerő hanyatlásához vezet — írja az arXiv.

A kutatók két önszabályozó keretrendszert javasolnak a probléma áthidalására. A Disentanglement-Guided Self-Alignment (DGSA) a prozódia és a timbre szétválasztásával állítja helyre a kifejezőerőt komplex nyelvekben. A Temperature-Driven Self-Critique (TDSC) pedig automatizált feltárással és szűréssel stabilizálja a generálást, különösen ott, ahol kevés a valós referencia.

Az új megközelítés erősebb kereskedelmi rendszereket, köztük az ElevenLabs és a Gemini Pro modelljeit is felülmúlja. Ezenkívül lehetővé teszi a laoszi nyelv első zéró-shot hangklónozását is.

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom