A Google Gemini 3.1 Flash TTS-e promptokkal irányítható hangot ad
A Google egy új szövegfelolvasó modellt, a Gemini 3.1 Flash TTS-t adta ki, amellyel a felhasználók utasítások segítségével részletesen szabályozhatják a generált hang kiejtését és stílusát.

Új szövegfelolvasó modellt mutatott be a Google, amely a Gemini 3.1 Flash TTS nevet kapta. A modell különlegessége, hogy promptokkal irányítható, így a felhasználók részletesen befolyásolhatják a generált hang jellemzőit — írja Simon Willison blogja.
A Gemini API-n keresztül érhető el a 'gemini-3.1-flash-tts-preview' azonosítóval, azonban kizárólag hangfájlokat képes generálni. A részletes útmutató alapján a hangstílus, a dinamika, a tempó és az akcentus is finomhangolható, ami jelentős előrelépést jelent a korábbi szövegfelolvasó rendszerekhez képest.
Simon Willison blogja konkrét példákkal illusztrálja, hogyan lehet a promptokat használni. Egy Jaz R. nevű karakter hangját imitálva, különböző akcentusokkal – például Brixton, London, Newcastle és Exeter, Devon – mutatta be a modell sokoldalúságát. Ez a funkció új lehetőségeket nyit meg a tartalomgyártók és fejlesztők számára, akik egyedi hangprofilokat szeretnének létrehozni projektjeikhez.