A Mistral AI új szövegfelolvasó modellje 68,4%-kal jobb az ElevenLabs Flash v2.5-nél

A Mistral AI Voxtral TTS modellje 68,4%-kal jobb teljesítményt nyújt az ElevenLabs Flash v2.5-nél. A Voxtral TTS a cég első audió modellje.

Fotó: Arturo Mendez / Unsplash

Forrás: Mistral AI•Szerző: AI Forradalom szerk.•2026. április 16.

Megosztás

Új szövegfelolvasó modellt adott ki a Mistral AI, amely a cég állítása szerint felülmúlja az ElevenLabs megoldását — írja a VentureBeat. A Voxtral TTS névre keresztelt modell súlyait ráadásul ingyenesen elérhetővé tették.

A Mistral AI szerint a Voxtral TTS a zero-shot hangklónozásban 68,4%-os preferenciát ért el az ElevenLabs Flash v2.5-höz képest. Fontos azonban megjegyezni, hogy ezek a számok a gyártó saját mérései, nem független validáció eredményei.

A Voxtral TTS egy körülbelül 4 milliárd paraméteres, többnyelvű, nyílt súlyú szövegfelolvasó modell. A modell súlyai letölthetők, futtathatók és finomhangolhatók, ami jelentős előnyt jelent a fejlesztők számára.

A Voxtral TTS a Ministral 3B-re épül, alapértelmezett BF16 súlyai 8 GB méretűek. Ez azt jelenti, hogy egyetlen, legalább 16 GB VRAM-mal rendelkező GPU-n is futtatható a modell.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

☕ Támogatom