Modellek & LLM2026. márc. 27.frissítve: 00:05

A Mistral Voxtral TTS modellje 90 ms alatt kezdi el a beszédet

Pierre Stock, a Mistral AI alelnöke elárulta, hogy a Voxtral TTS modell fejlesztését a vevők igényeire reagálva kezdték el.

Fotó: Fotó: Denis N. / Unsplash

forrás: TechCrunch·AI Forradalom szerk.·2026. március 27.

Megosztás

Mistral AI, a French AI startup, bejelentette új nyílt forráskódú szöveg‑töveggeneráló modelljét, a Voxtral TTS-t. A fejlesztést a vevők igényeire reagálva indították, és a modell képes 90 ms alatt elkezdeni a beszédet 500 karakteres, 10 s-es mintán.

A Voxtral TTS kilenc nyelvet támogat, köztük angol, francia, német, spanyol, holland, portugál, olasz, hindi és arab. A modellel könnyen létrehozható egyedi hang, amelyet 5 másodpercnél rövidebb mintával is adaptálhatnak, így a vállalatok saját ügyfélszolgálati vagy értékesítési agenteket építhetnek.

Technikai szempontból a model a Ministral 3B architektúráján alapul, és 6x real‑time faktort kínál: egy 10 s-es klipet körülbelül 1,6 s alatt generál. A TTFA (time‑to‑first‑audio) 90 ms, ami a leggyorsabb szintetizálási sebességet jelenti a piacon.

A vállalat szerint a nyílt forráskód és a testreszabhatóság miatt a Voxtral TTS könnyen integrálható, és költséghatékony alternatívát nyújt a ElevenLabs, Deepgram vagy OpenAI TTS megoldásaihoz képest.

A jövőben a Mistral terve, hogy egy end‑to‑end platformot épít, amely multimodális bemeneteket (hang, szöveg, kép) és kimeneteket is kezel. A Voxtral TTS elsődleges célja, hogy emberi hangzású, valós idejű beszédet biztosítson, amelyet vállalati ügyfélszolgálatban és más interaktív alkalmazásokban is felhasználhatnak.

tetszett a cikk? oszd meg →

Megosztás