Google Gemini 3.1 Flash TTS: 70+ nyelv, 1211 Elo-pont a hanggenerálásban
A Google Gemini 3.1 Flash alapú TTS-modellje 70+ nyelvet támogat, audio-címkékkel finomhangolható stílussal, tempóval és akcentussal — az Artificial Analysis rangsorán 1211 Elo-ponttal az ElevenLabs v3-at megelőzi.

Több mint 70 nyelven támogatja a hanggenerálást a Google új, Gemini 3.1 Flash alapú szövegfelolvasó (TTS) modellje — írja a The Decoder. A fejlesztők mostantól audio címkékkel szabályozhatják a generált beszéd stílusát, tempóját, tónusát és akcentusát, ami eddig nem látott precizitást tesz lehetővé.
A modell az Artificial Analysis rangsorában 1211-es Elo-pontszámot ért el, és kiemelkedik a minőség-ár arányával. A Google szerint az Elevenlabs v3-at felülmúlja az általános minőségben, és közvetlenül az Inworld 1.5 Max mögött helyezkedik el.
A Gemini 3.1 Flash TTS előzetes verziója már elérhető a Gemini API-n, a Vertex AI-n és a Google Vids-en keresztül. A Google AI Studio felületén ingyenesen kipróbálható a modell, amelynek fizetős szintje is van. A generált hanganyagokat a Google minden esetben SynthID vízjellel látja el, ezzel jelezve az AI-generált tartalmat.