Frissítve: 2 perce·Ma: 66
Modellek & LLM
AI által generált szöveg

A Voxtral TTS hiányzó darabja: codec encoder súlyok a hangklónozáshoz

Mistral Forge platformjának bejelentése után a Voxtral TTS hiányzó részének pótlása lehetővé teszi a hangklónozást, az új megoldásban a codec encoder súlyok kulcsszerepet játszanak.

A Voxtral TTS hiányzó darabja: codec encoder súlyok a hangklónozáshoz
Fotó: Nastasya Slastnyh / Unsplash
Forrás: Reddit LocalLLaMASzerző: AI Forradalom szerk.
Megosztás

A Voxtral TTS hiányzó darabját a Mistral Forge platform bejelentése után sikerült kiegészíteni, és most lehetővé válik a hangklónozás. A nyílt forráskódú modellben a codec encoder súlyok hiányoztak, ami megakadályozta a ref_audio átvitelt, amely nélkül a klónozás nem működött. A hiányzó súlyok beépítése után a rendszer képes a referenciaként szolgáló hangfelvételt feldolgozni.

Miért fontos ez? A Voxtral TTS korábban csak szövegből generálta a hangot, de a klónozási képesség révén a felhasználók akár 2–3 másodperces hangmintából is létrehozhatják a saját hangjukat. Ez jelentős előrelépés a személyre szabott TTS megoldások terén, mert a korábbi modellekhez hosszabb minták vagy több adat szükséges volt.

A technológiai háttérben a codec encoder egy speciális neurális hálózat, amely a hangot alacsony dimenziós kódolásba konvertálja. Ezt a kódot a TTS motor használja fel, hogy a szöveget a referenciaként szolgáló hangszínhez igazítsa. A súlyok beépítése után a ref_audio pass automatikusan működik, így a klónozás zökkenőmentesen integrálódik a generálási folyamatba.

Az új megoldás a Mistral Forge platformon keresztül érhető el, amely a Mistral Compute GPU infrastruktúráját használja. A platform lehetővé teszi a fejlesztők számára, hogy a Voxtral TTS-t saját alkalmazásaikba illesszék, és a zero-shot klónozási funkciót kihasználják.

Mi a következő lépés? A közösség most már hozzáférhet a teljesen működő modellhez, és a fejlesztők tesztelhetik a 2–3 másodperces hangminták klónozását. A Mistral várhatóan további frissítéseket fog kiadni a modellel, hogy még finomabb hangminőséget és több nyelvi támogatást biztosítson. A közösségi visszajelzéseket a Redditen és a Mediumen követni lehet, ahol a fejlesztők megosztják tapasztalataikat.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom