Az Inworld AI bemutatta a Realtime TTS-2-t: a modell 100 nyelven is megérti a hangulatot

Az új modell zárt hurkú rendszerként működik, így nemcsak a szöveget, hanem a beszélgetés teljes hanganyagát is elemzi, felismerve a felhasználó hangszínét, tempóját és érzelmi állapotát.

Fotó: palesa / Unsplash

Forrás: MarkTechPost•Szerző: AI Forradalom szerk.•2026. május 6.

Megosztás

Új hangmodellt mutatott be az Inworld AI, a Realtime TTS-2-t, amely kutatási előzetesként érhető el az Inworld API-n és az Inworld Realtime API-n keresztül — írja a MarkTechPost.

A fejlesztők egyszerű angol nyelvű promptokkal irányíthatják a modell hangkifejezését, ahelyett, hogy előre definiált érzelmek közül választanának. A modell a bemeneti szövegbe illesztett leíró utasításokra, például „[speak sadly, as if something bad just happened]” sokkal jobban reagál, mint rövid címkékre.

A TTS-2 négy kulcsfontosságú képességgel érkezik: a már említett hangirányítás (Voice Direction), a beszélgetési tudatosság (Conversational Awareness), a többnyelvű támogatás (Crosslingual) és a fejlett hangtervezés (Advanced Voice Design). Utóbbi lehetővé teszi, hogy a fejlesztők írásos prompt alapján hozzanak létre és mentsenek el egyedi hangokat, referencia hanganyag nélkül. A modell több mint 100 nyelven képes megőrizni a hangidentitást, akár mondaton belüli nyelvváltás esetén is.

Az Inworld Realtime TTS 1.5 már most is az első helyen áll az Artificial Analysis Speech Arena rangsorában, megelőzve a Google-t és az ElevenLabs-t a 2026. május 5-i adatok szerint.