A Google Gemini 3.1 Flash Live csendben leváltja az emberi hangot
A Gemini 3.1 Flash Live modell 36.1 százalékos eredményt ért el a Scale AI Audio MultiChallenge tesztben.
Google bejelentette a Gemini 3.1 Flash Live modellt, amely valós idejű beszédfelismerésre van tervezve. A modell a Scale AI Audio MultiChallenge tesztben 36,1 %-os pontszámot ért el, ami a legjobb eredmény a valós idejű audio‑modellek között. A teszt során a modelleknek kellett reagálniuk megszakításokra és elakadásra, ahol a nem konversációs modellek akár 50 % feletti pontszámot is elérhettek.
A Gemini 3.1 Flash Live célja, hogy a generatív hangkimenet késleltetését csökkentse. A Google nem határozta meg pontosan a késleltetést, de azt állítja, hogy a 300 ms alatt marad, amely a hangfelfogás optimális határértéke. A modellel a felhasználók már ma is élhetnek a Google termékekben, például a Gemini Live és Search Live funkciókban.
Technikai szempontból a modellel a komplex, többlépcsős feladatokban is jobb eredményeket ér el, mint a korábbi verziók. A Big Bench Audio és a ComplexFuncBench Audio vizsgálatainál a 3.1 Flash Live a legmagasabb pontszámot szerezte, ami a logikai és kognitív képességek javulását jelzi.
A Google partnerségei, mint a Home Depot és a Verizon, már tesztelték a modellt, és pozitív visszajelzéseket adtak a természetes hangzásról. A modellel együtt járó SynthID vízjel nem hallható, de technikai eszközökkel felismerhető, így a beszéd nem lehet teljesen hamisítatlan.
Jövőben a fejlesztők a Gemini API, AI Studio és Gemini Enterprise for Customer Experience platformokon keresztül férhetnek hozzá a modellhez. A Google azt ígéri, hogy a Gemini 3.1 Flash Live a következő hetekben szélesebb körben elérhetővé válik, különösen a vállalati ügyfélszolgálati és vásárlási asszisztensekben.