Modellek & LLM2026. ápr. 15.frissítve: 19:10

A Google Gemini 3.1 Flash TTS modelje 70 nyelven kínál expresszív AI beszédet

A legújabb szövegfelolvasó modell jelentősen javítja a hangminőséget és a vezérelhetőséget, ezzel új lehetőségeket nyit az AI-alapú beszédalkalmazások fejlesztésében.

Fotó: Natasa Grabovac / Unsplash

forrás: Google DeepMind·AI Forradalom szerk.·2026. április 15.

Megosztás

A Google DeepMind bemutatta a Gemini 3.1 Flash TTS-t, egy új szövegfelolvasó modellt, amely precíz irányítást biztosít az expresszív AI-beszéd generálásához – írja a Google DeepMind blogja.

A modell a fejlesztők, vállalatok és felhasználók számára is elérhetővé válik a Gemini API-n, a Google AI Studióban, a Vertex AI-n és a Google Vids szolgáltatásban. A Gemini 3.1 Flash TTS az Artificial Analysis TTS ranglistáján 1211-es Elo pontszámot ért el, ami kiemelkedőnek számít a vaktesztek alapján.

A hangok színes palettája

A Gemini 3.1 Flash TTS új hangcímkéket vezet be, amelyekkel a felhasználók természetes nyelvi parancsokkal szabályozhatják a vokális stílust, a tempót és az előadásmódot. Ez a funkció lehetővé teszi a fejlesztők számára, hogy a „rendezői székből” irányítsák az AI-beszéd kimenetét, részletesebben meghatározva a jelenet irányát, a beszélő specifikus jellemzőit, mint például a hangnemet és az akcentust, sőt, akár mondat közben is változtathatják az expresszivitást.

A nyelvek hídja

A modell több mint 70 nyelvet támogat, így globális szinten is lehetővé teszi a lokalizált, expresszív beszédélmények létrehozását. Minden Gemini 3.1 Flash TTS által generált hanganyagot a SynthID vízjelez, ami egy észrevehetetlen digitális jel, amely segít az AI által generált tartalom megbízható azonosításában a félretájékoztatás megelőzése érdekében. A Google DeepMind a Gemini 3.1 Flash TTS modellt 2024. március 15-én tette elérhetővé a fejlesztők számára.

tetszett a cikk? oszd meg →

Megosztás