Frissítve: 8 perce·Ma: 57
Modellek & LLM
AI által generált szöveg

A Google Gemini 3.1 Flash TTS modelje 70 nyelven kínál expresszív AI beszédet

A legújabb szövegfelolvasó modell jelentősen javítja a hangminőséget és a vezérelhetőséget, ezzel új lehetőségeket nyit az AI-alapú beszédalkalmazások fejlesztésében.

A Google Gemini 3.1 Flash TTS modelje 70 nyelven kínál expresszív AI beszédet
Fotó: Natasa Grabovac / Unsplash
Forrás: Google DeepMindSzerző: AI Forradalom szerk.
Megosztás

A Google DeepMind bemutatta a Gemini 3.1 Flash TTS-t, egy új szövegfelolvasó modellt, amely precíz irányítást biztosít az expresszív AI-beszéd generálásához – írja a Google DeepMind blogja.

A modell a fejlesztők, vállalatok és felhasználók számára is elérhetővé válik a Gemini API-n, a Google AI Studióban, a Vertex AI-n és a Google Vids szolgáltatásban. A Gemini 3.1 Flash TTS az Artificial Analysis TTS ranglistáján 1211-es Elo pontszámot ért el, ami kiemelkedőnek számít a vaktesztek alapján.

A hangok színes palettája

A Gemini 3.1 Flash TTS új hangcímkéket vezet be, amelyekkel a felhasználók természetes nyelvi parancsokkal szabályozhatják a vokális stílust, a tempót és az előadásmódot. Ez a funkció lehetővé teszi a fejlesztők számára, hogy a „rendezői székből” irányítsák az AI-beszéd kimenetét, részletesebben meghatározva a jelenet irányát, a beszélő specifikus jellemzőit, mint például a hangnemet és az akcentust, sőt, akár mondat közben is változtathatják az expresszivitást.

A nyelvek hídja

A modell több mint 70 nyelvet támogat, így globális szinten is lehetővé teszi a lokalizált, expresszív beszédélmények létrehozását. Minden Gemini 3.1 Flash TTS által generált hanganyagot a SynthID vízjelez, ami egy észrevehetetlen digitális jel, amely segít az AI által generált tartalom megbízható azonosításában a félretájékoztatás megelőzése érdekében. A Google DeepMind a Gemini 3.1 Flash TTS modellt 2024. március 15-én tette elérhetővé a fejlesztők számára.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom