A Mistral új, nyílt forráskódú beszédfelismerő modellje valós idejű hanginterakciókat tesz lehetővé
A Mistral új modelljét például hangalapú ügyfélszolgálati alkalmazásokban is hasznosíthatják.

Mistral AI tegnap bejelentette új, nyílt forráskódú beszédfelismerő modelljét. A model, mely a Voxtral TTS néven került piacra, nem csak szöveget alakít át hanggá, hanem valós idejű, emberi hangzású interakciókat tesz lehetővé.
A fejlesztés lényege, hogy a hagyományos beszédfelismerő rendszerek, melyek főként szöveget generálnak, helyett a model képes azonnal visszajelzést adni hangban. Ez új dimenziót nyit a hangalapú ügyfélszolgálatokban, ahol a botok nem csak szövegben, hanem hangban is válaszolhatnak.
Az új rendszer nyílt súlyokkal rendelkezik, így a fejlesztők gyorsan adaptálhatják saját alkalmazásaikba. A Voxtral TTS gyors és valós idejű, ami kritikus a valóságos ügyfélélményhez.
A Mistral által nyújtott megoldás azt jelzi, hogy a beszédfelismerés és szöveg-újrahangosítás területén az AI már nem csak a szöveggel korlátozódik. A valós idejű hanginterakciók bevezetése új üzleti lehetőségeket kínál, különösen a felhőalapú ügyfélszolgálati rendszerekben.
Mi a következő lépés? A vállalat a következő napokban tervez bemutatni egy demonstrációt, amelyben a Voxtral TTS valós idejű, többnyelvű hangfeladatokat hajt végre. A részletes specifikációk a hivatalos GitHub oldalán érhetők el.