A Mistral ingyenesen kiadja Voxtral TTS modelljét, amely már felülmúlja az ElevenLabsot
A Voxtral TTS modell 2,5-ször gyorsabban dolgozik, mint az ElevenLabs

Mistral AI tegnap bejelentette a Voxtral TTS nevű, open-weights text-to-speech modellt, amelyet a saját fejlesztéseikből származó LLM-hez integráltak. A cég szerint a Voxtral 2,5-szor gyorsabb, mint az ElevenLabs TTS rendszere, miközben a hangminőség is hasonló vagy jobb.
Ez a lépés a beszélt AI területén egy új mérföldkő, mert a Voxtral teljesen nyílt forráskódú, és a fejlesztők szabadon futtathatják mobil eszközökön is, ami korábban csak nagyobb szerverekre volt elérhető. A gyorsaság és a könnyű telepíthetőség lehetővé teszi, hogy kisebb vállalatok is saját, testreszabott hangügynököt hozzanak létre.
A Voxtral technológiája a saját Mistral LLM-re épül, és a finomhangolás során a beszédadatokat több tízezer nyelvi példán keresztül tanulmányozza. Az open-weights modell révén a fejlesztők saját adathalmazzaikkal tovább finomhangolhatják a hangszínét, így akár helyi nyelvi dialektusokhoz is igazíthatják.
A piacra dobásával a Mistral kihívást jelent a vezető TTS-szolgáltatóknak. A Voxtral nem csak a teljesítményben, hanem a költséghatékonyságban is előnyös, hiszen a nyílt forráskódú modell csökkenti a licencdíjakat és a számítási erőforrás-igényt.
Mi a következő lépés? A Mistral a következő hónapban tervez egy demo-környezetet, ahol a felhasználók saját hangszínű alkalmazásokat építhetnek. Kíváncsiak a fejlesztők, hogy a Voxtral milyen mértékben fogja felülmúlni a jelenlegi piaci szereplőket hosszú távon.