Frissítve: 14 perce·Ma: 63
Alkalmazások
AI által generált szöveg

A Google Gemini 3.1 Flash TTS-e promptokkal irányítható hangot ad

A Google egy új szövegfelolvasó modellt, a Gemini 3.1 Flash TTS-t adta ki, amellyel a felhasználók utasítások segítségével részletesen szabályozhatják a generált hang kiejtését és stílusát.

A Google Gemini 3.1 Flash TTS-e promptokkal irányítható hangot ad
Fotó: Kit (formerly ConvertKit) / Unsplash
Forrás: Simon WillisonSzerző: AI Forradalom szerk.
Megosztás

Új szövegfelolvasó modellt mutatott be a Google, amely a Gemini 3.1 Flash TTS nevet kapta. A modell különlegessége, hogy promptokkal irányítható, így a felhasználók részletesen befolyásolhatják a generált hang jellemzőit — írja Simon Willison blogja.

A Gemini API-n keresztül érhető el a 'gemini-3.1-flash-tts-preview' azonosítóval, azonban kizárólag hangfájlokat képes generálni. A részletes útmutató alapján a hangstílus, a dinamika, a tempó és az akcentus is finomhangolható, ami jelentős előrelépést jelent a korábbi szövegfelolvasó rendszerekhez képest.

Simon Willison blogja konkrét példákkal illusztrálja, hogyan lehet a promptokat használni. Egy Jaz R. nevű karakter hangját imitálva, különböző akcentusokkal – például Brixton, London, Newcastle és Exeter, Devon – mutatta be a modell sokoldalúságát. Ez a funkció új lehetőségeket nyit meg a tartalomgyártók és fejlesztők számára, akik egyedi hangprofilokat szeretnének létrehozni projektjeikhez.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom