Frissítve: 9 perce·Ma: 27
Modellek & LLM
AI által generált szöveg

A Google Gemini 3.1 Flash Live csendben leváltja az emberi hangot

A Gemini 3.1 Flash Live modell 36.1 százalékos eredményt ért el a Scale AI Audio MultiChallenge tesztben.

A Google Gemini 3.1 Flash Live csendben leváltja az emberi hangot
Fotó: Stephen Audu / Unsplash
Forrás: Ars TechnicaSzerző: AI Forradalom szerk.
Megosztás

Google bejelentette a Gemini 3.1 Flash Live modellt, amely valós idejű beszédfelismerésre van tervezve. A modell a Scale AI Audio MultiChallenge tesztben 36,1 %-os pontszámot ért el, ami a legjobb eredmény a valós idejű audio‑modellek között. A teszt során a modelleknek kellett reagálniuk megszakításokra és elakadásra, ahol a nem konversációs modellek akár 50 % feletti pontszámot is elérhettek.

A Gemini 3.1 Flash Live célja, hogy a generatív hangkimenet késleltetését csökkentse. A Google nem határozta meg pontosan a késleltetést, de azt állítja, hogy a 300 ms alatt marad, amely a hangfelfogás optimális határértéke. A modellel a felhasználók már ma is élhetnek a Google termékekben, például a Gemini Live és Search Live funkciókban.

Technikai szempontból a modellel a komplex, többlépcsős feladatokban is jobb eredményeket ér el, mint a korábbi verziók. A Big Bench Audio és a ComplexFuncBench Audio vizsgálatainál a 3.1 Flash Live a legmagasabb pontszámot szerezte, ami a logikai és kognitív képességek javulását jelzi.

A Google partnerségei, mint a Home Depot és a Verizon, már tesztelték a modellt, és pozitív visszajelzéseket adtak a természetes hangzásról. A modellel együtt járó SynthID vízjel nem hallható, de technikai eszközökkel felismerhető, így a beszéd nem lehet teljesen hamisítatlan.

Jövőben a fejlesztők a Gemini API, AI Studio és Gemini Enterprise for Customer Experience platformokon keresztül férhetnek hozzá a modellhez. A Google azt ígéri, hogy a Gemini 3.1 Flash Live a következő hetekben szélesebb körben elérhetővé válik, különösen a vállalati ügyfélszolgálati és vásárlási asszisztensekben.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom