Frissítve: 14 perce·Ma: 62
Modellek & LLM
AI által generált szöveg

A Mistral Voxtral TTS modellje 90 ms alatt kezdi el a beszédet

Pierre Stock, a Mistral AI alelnöke elárulta, hogy a Voxtral TTS modell fejlesztését a vevők igényeire reagálva kezdték el.

A Mistral Voxtral TTS modellje 90 ms alatt kezdi el a beszédet
Fotó: Denis N. / Unsplash
Forrás: TechCrunchSzerző: AI Forradalom szerk.
Megosztás

Mistral AI, a French AI startup, bejelentette új nyílt forráskódú szöveg‑töveggeneráló modelljét, a Voxtral TTS-t. A fejlesztést a vevők igényeire reagálva indították, és a modell képes 90 ms alatt elkezdeni a beszédet 500 karakteres, 10 s-es mintán.

A Voxtral TTS kilenc nyelvet támogat, köztük angol, francia, német, spanyol, holland, portugál, olasz, hindi és arab. A modellel könnyen létrehozható egyedi hang, amelyet 5 másodpercnél rövidebb mintával is adaptálhatnak, így a vállalatok saját ügyfélszolgálati vagy értékesítési agenteket építhetnek.

Technikai szempontból a model a Ministral 3B architektúráján alapul, és 6x real‑time faktort kínál: egy 10 s-es klipet körülbelül 1,6 s alatt generál. A TTFA (time‑to‑first‑audio) 90 ms, ami a leggyorsabb szintetizálási sebességet jelenti a piacon.

A vállalat szerint a nyílt forráskód és a testreszabhatóság miatt a Voxtral TTS könnyen integrálható, és költséghatékony alternatívát nyújt a ElevenLabs, Deepgram vagy OpenAI TTS megoldásaihoz képest.

A jövőben a Mistral terve, hogy egy end‑to‑end platformot épít, amely multimodális bemeneteket (hang, szöveg, kép) és kimeneteket is kezel. A Voxtral TTS elsődleges célja, hogy emberi hangzású, valós idejű beszédet biztosítson, amelyet vállalati ügyfélszolgálatban és más interaktív alkalmazásokban is felhasználhatnak.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom