A Voxtral TTS hiányzó darabja: codec encoder súlyok a hangklónozáshoz
Mistral Forge platformjának bejelentése után a Voxtral TTS hiányzó részének pótlása lehetővé teszi a hangklónozást, az új megoldásban a codec encoder súlyok kulcsszerepet játszanak.

A Voxtral TTS hiányzó darabját a Mistral Forge platform bejelentése után sikerült kiegészíteni, és most lehetővé válik a hangklónozás. A nyílt forráskódú modellben a codec encoder súlyok hiányoztak, ami megakadályozta a ref_audio átvitelt, amely nélkül a klónozás nem működött. A hiányzó súlyok beépítése után a rendszer képes a referenciaként szolgáló hangfelvételt feldolgozni.
Miért fontos ez? A Voxtral TTS korábban csak szövegből generálta a hangot, de a klónozási képesség révén a felhasználók akár 2–3 másodperces hangmintából is létrehozhatják a saját hangjukat. Ez jelentős előrelépés a személyre szabott TTS megoldások terén, mert a korábbi modellekhez hosszabb minták vagy több adat szükséges volt.
A technológiai háttérben a codec encoder egy speciális neurális hálózat, amely a hangot alacsony dimenziós kódolásba konvertálja. Ezt a kódot a TTS motor használja fel, hogy a szöveget a referenciaként szolgáló hangszínhez igazítsa. A súlyok beépítése után a ref_audio pass automatikusan működik, így a klónozás zökkenőmentesen integrálódik a generálási folyamatba.
Az új megoldás a Mistral Forge platformon keresztül érhető el, amely a Mistral Compute GPU infrastruktúráját használja. A platform lehetővé teszi a fejlesztők számára, hogy a Voxtral TTS-t saját alkalmazásaikba illesszék, és a zero-shot klónozási funkciót kihasználják.
Mi a következő lépés? A közösség most már hozzáférhet a teljesen működő modellhez, és a fejlesztők tesztelhetik a 2–3 másodperces hangminták klónozását. A Mistral várhatóan további frissítéseket fog kiadni a modellel, hogy még finomabb hangminőséget és több nyelvi támogatást biztosítson. A közösségi visszajelzéseket a Redditen és a Mediumen követni lehet, ahol a fejlesztők megosztják tapasztalataikat.