A Google Gemini 3.1 Flash TTS modelje 70 nyelven kínál expresszív AI beszédet
A legújabb szövegfelolvasó modell jelentősen javítja a hangminőséget és a vezérelhetőséget, ezzel új lehetőségeket nyit az AI-alapú beszédalkalmazások fejlesztésében.

A Google DeepMind bemutatta a Gemini 3.1 Flash TTS-t, egy új szövegfelolvasó modellt, amely precíz irányítást biztosít az expresszív AI-beszéd generálásához – írja a Google DeepMind blogja.
A modell a fejlesztők, vállalatok és felhasználók számára is elérhetővé válik a Gemini API-n, a Google AI Studióban, a Vertex AI-n és a Google Vids szolgáltatásban. A Gemini 3.1 Flash TTS az Artificial Analysis TTS ranglistáján 1211-es Elo pontszámot ért el, ami kiemelkedőnek számít a vaktesztek alapján.
A hangok színes palettája
A Gemini 3.1 Flash TTS új hangcímkéket vezet be, amelyekkel a felhasználók természetes nyelvi parancsokkal szabályozhatják a vokális stílust, a tempót és az előadásmódot. Ez a funkció lehetővé teszi a fejlesztők számára, hogy a „rendezői székből” irányítsák az AI-beszéd kimenetét, részletesebben meghatározva a jelenet irányát, a beszélő specifikus jellemzőit, mint például a hangnemet és az akcentust, sőt, akár mondat közben is változtathatják az expresszivitást.
A nyelvek hídja
A modell több mint 70 nyelvet támogat, így globális szinten is lehetővé teszi a lokalizált, expresszív beszédélmények létrehozását. Minden Gemini 3.1 Flash TTS által generált hanganyagot a SynthID vízjelez, ami egy észrevehetetlen digitális jel, amely segít az AI által generált tartalom megbízható azonosításában a félretájékoztatás megelőzése érdekében. A Google DeepMind a Gemini 3.1 Flash TTS modellt 2024. március 15-én tette elérhetővé a fejlesztők számára.