Frissítve: 15 perce·Ma: 49
Modellek & LLM
AI által generált szöveg

A Google Gemini 3.1 Flash Live-ja gyorsabb és természetesebb hangélményt ígér

A Google legújabb hangmodellje már több mint 200 országban érhető el a Gemini Live és Search Live szolgáltatásokon keresztül.

A Google Gemini 3.1 Flash Live-ja gyorsabb és természetesebb hangélményt ígér
Fotó: Youssef Abdelwahab / Unsplash
Forrás: Google AI BlogSzerző: AI Forradalom szerk.
Megosztás

A Google bemutatta a Gemini 3.1 Flash Live modellt, amely a cég eddigi legmagasabb minőségű hang- és beszédmodellje. A fejlesztés célja a valós idejű párbeszédek folyékonyabbá, természetesebbé és pontosabbá tétele — írja a Google AI Blog.

Ez az új audio AI modell gyorsabb, és jobban érti a beszélgetés hangszínét, ami természetesebb interakciókat tesz lehetővé. A Google szerint a 3.1 Flash Live képes összetett feladatok megbízhatóbb végrehajtására, különösen zajos környezetben, például ügyfélszolgálati hívások során.

A Hangtechnológia Új Korszaka

A fejlesztők a Gemini Live API-n keresztül, a Google AI Studióban érhetik el az előzetes verziót. Vállalati felhasználók a Gemini Enterprise for Customer Experience keretében alkalmazhatják, míg a nagyközönség a Search Live és Gemini Live szolgáltatásokon keresztül próbálhatja ki a modellt.

Minőség és Teljesítmény

A Google a ComplexFuncBench Audio teljesítményteszten 90,8%-os pontszámot ért el a 3.1 Flash Live modellel, ami jelentős javulást jelent az előző verzióhoz képest. A Scale AI Audio MultiChallenge tesztjén pedig 36,1%-os eredménnyel bizonyított, ami a komplex utasítások követését és a hosszú távú gondolkodást méri valós környezetben.

A modell a hangárnyalatokat, mint a hangmagasságot és a tempót, is jobban felismeri, és dinamikusan igazítja válaszait a felhasználó frusztrációjához vagy zavarodottságához. A Verizon, a LiveKit és a The Home Depot már pozitívan nyilatkozott a 3.1 Flash Live munkafolyamatokba való integrálásáról.

Minden, a 3.1 Flash Live által generált hanganyagot a SynthID technológiával vízjeleznek, amely észrevétlenül beépül a hangkimenetbe. Ez a vízjel segít megelőzni a félretájékoztatás terjedését az AI-generált tartalmak megbízható észlelésével. A Google Gemini 3.1 Flash Live modellje 2024. április 15-én lesz elérhető a Gemini Live és Search Live szolgáltatásokon keresztül.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom