Alkalmazások2026. ápr. 15.frissítve: 20:10

A Google Gemini 3.1 Flash TTS-e promptokkal irányítható hangot ad

A Google egy új szövegfelolvasó modellt, a Gemini 3.1 Flash TTS-t adta ki, amellyel a felhasználók utasítások segítségével részletesen szabályozhatják a generált hang kiejtését és stílusát.

Fotó: Kit (formerly ConvertKit) / Unsplash

forrás: Simon Willison·AI Forradalom szerk.·2026. április 15.

Megosztás

Új szövegfelolvasó modellt mutatott be a Google, amely a Gemini 3.1 Flash TTS nevet kapta. A modell különlegessége, hogy promptokkal irányítható, így a felhasználók részletesen befolyásolhatják a generált hang jellemzőit — írja Simon Willison blogja.

A Gemini API-n keresztül érhető el a 'gemini-3.1-flash-tts-preview' azonosítóval, azonban kizárólag hangfájlokat képes generálni. A részletes útmutató alapján a hangstílus, a dinamika, a tempó és az akcentus is finomhangolható, ami jelentős előrelépést jelent a korábbi szövegfelolvasó rendszerekhez képest.

Simon Willison blogja konkrét példákkal illusztrálja, hogyan lehet a promptokat használni. Egy Jaz R. nevű karakter hangját imitálva, különböző akcentusokkal – például Brixton, London, Newcastle és Exeter, Devon – mutatta be a modell sokoldalúságát. Ez a funkció új lehetőségeket nyit meg a tartalomgyártók és fejlesztők számára, akik egyedi hangprofilokat szeretnének létrehozni projektjeikhez.

tetszett a cikk? oszd meg →

Megosztás