A Mistral AI új szövegfelolvasó modellje 68,4%-kal jobb az ElevenLabs Flash v2.5-nél
A Mistral AI Voxtral TTS modellje 68,4%-kal jobb teljesítményt nyújt az ElevenLabs Flash v2.5-nél. A Voxtral TTS a cég első audió modellje.

Új szövegfelolvasó modellt adott ki a Mistral AI, amely a cég állítása szerint felülmúlja az ElevenLabs megoldását — írja a VentureBeat. A Voxtral TTS névre keresztelt modell súlyait ráadásul ingyenesen elérhetővé tették.
A Mistral AI szerint a Voxtral TTS a zero-shot hangklónozásban 68,4%-os preferenciát ért el az ElevenLabs Flash v2.5-höz képest. Fontos azonban megjegyezni, hogy ezek a számok a gyártó saját mérései, nem független validáció eredményei.
A Voxtral TTS egy körülbelül 4 milliárd paraméteres, többnyelvű, nyílt súlyú szövegfelolvasó modell. A modell súlyai letölthetők, futtathatók és finomhangolhatók, ami jelentős előnyt jelent a fejlesztők számára.
A Voxtral TTS a Ministral 3B-re épül, alapértelmezett BF16 súlyai 8 GB méretűek. Ez azt jelenti, hogy egyetlen, legalább 16 GB VRAM-mal rendelkező GPU-n is futtatható a modell.