Frissítve: 9 perce·Ma: 28
Alkalmazások
AI által generált szöveg

Google Gemini 3.1 Flash TTS: 70+ nyelv, 1211 Elo-pont a hanggenerálásban

A Google Gemini 3.1 Flash alapú TTS-modellje 70+ nyelvet támogat, audio-címkékkel finomhangolható stílussal, tempóval és akcentussal — az Artificial Analysis rangsorán 1211 Elo-ponttal az ElevenLabs v3-at megelőzi.

Google Gemini 3.1 Flash TTS: 70+ nyelv, 1211 Elo-pont a hanggenerálásban
Fotó: Sanket Mishra / Unsplash
Forrás: The DecoderSzerző: AI Forradalom szerk.
Megosztás

Több mint 70 nyelven támogatja a hanggenerálást a Google új, Gemini 3.1 Flash alapú szövegfelolvasó (TTS) modellje — írja a The Decoder. A fejlesztők mostantól audio címkékkel szabályozhatják a generált beszéd stílusát, tempóját, tónusát és akcentusát, ami eddig nem látott precizitást tesz lehetővé.

A modell az Artificial Analysis rangsorában 1211-es Elo-pontszámot ért el, és kiemelkedik a minőség-ár arányával. A Google szerint az Elevenlabs v3-at felülmúlja az általános minőségben, és közvetlenül az Inworld 1.5 Max mögött helyezkedik el.

A Gemini 3.1 Flash TTS előzetes verziója már elérhető a Gemini API-n, a Vertex AI-n és a Google Vids-en keresztül. A Google AI Studio felületén ingyenesen kipróbálható a modell, amelynek fizetős szintje is van. A generált hanganyagokat a Google minden esetben SynthID vízjellel látja el, ezzel jelezve az AI-generált tartalmat.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom