Frissítve: 2 órája·Ma: 2
Modellek & LLM
AI által generált szöveg

Az Inworld AI bemutatta a Realtime TTS-2-t: a modell 100 nyelven is megérti a hangulatot

Az új modell zárt hurkú rendszerként működik, így nemcsak a szöveget, hanem a beszélgetés teljes hanganyagát is elemzi, felismerve a felhasználó hangszínét, tempóját és érzelmi állapotát.

Az Inworld AI bemutatta a Realtime TTS-2-t: a modell 100 nyelven is megérti a hangulatot
Fotó: palesa / Unsplash
Forrás: MarkTechPostSzerző: AI Forradalom szerk.
Megosztás

Új hangmodellt mutatott be az Inworld AI, a Realtime TTS-2-t, amely kutatási előzetesként érhető el az Inworld API-n és az Inworld Realtime API-n keresztül — írja a MarkTechPost.

A fejlesztők egyszerű angol nyelvű promptokkal irányíthatják a modell hangkifejezését, ahelyett, hogy előre definiált érzelmek közül választanának. A modell a bemeneti szövegbe illesztett leíró utasításokra, például „[speak sadly, as if something bad just happened]” sokkal jobban reagál, mint rövid címkékre.

A TTS-2 négy kulcsfontosságú képességgel érkezik: a már említett hangirányítás (Voice Direction), a beszélgetési tudatosság (Conversational Awareness), a többnyelvű támogatás (Crosslingual) és a fejlett hangtervezés (Advanced Voice Design). Utóbbi lehetővé teszi, hogy a fejlesztők írásos prompt alapján hozzanak létre és mentsenek el egyedi hangokat, referencia hanganyag nélkül. A modell több mint 100 nyelven képes megőrizni a hangidentitást, akár mondaton belüli nyelvváltás esetén is.

Az Inworld Realtime TTS 1.5 már most is az első helyen áll az Artificial Analysis Speech Arena rangsorában, megelőzve a Google-t és az ElevenLabs-t a 2026. május 5-i adatok szerint.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom