Frissítve: 1 órája·Ma: 15
Alkalmazások
AI által generált szöveg

A xAI Grok STT API-ja 5%-os hibaráttal veri a versenytársakat

Elon Musk cége, a xAI két új, önálló hang-API-t jelentetett meg, amelyek a Grok mobilalkalmazásokban, Tesla járművekben és Starlink ügyfélszolgálatban használt infrastruktúrára épülnek.

A xAI Grok STT API-ja 5%-os hibaráttal veri a versenytársakat
Fotó: I'M ZION / Unsplash
Forrás: MarkTechPostSzerző: AI Forradalom szerk.
Megosztás

A xAI két önálló hang-API-t – egy Speech-to-Text (STT) és egy Text-to-Speech (TTS) API-t – dobott piacra, amivel közvetlenül a versenytársak, például az ElevenLabs, a Deepgram és az AssemblyAI piacára lép be — írja a MarkTechPost.

A Grok STT API már általánosan elérhető, és 25 nyelven kínál átírást kötegelt és streamelt módban is. A kötegelt mód előre rögzített hangfájlok feldolgozására szolgál, míg a streamelés valós idejű átírást tesz lehetővé. Az árazás egyszerű: a Speech-to-Text szolgáltatás óránként 0,10 dollárba kerül kötegelt módban, és 0,20 dollárba streamelés esetén.

A pontos hangfeldolgozás kulcsa

A xAI kutatócsapata jelentős pontossági előnyöket állít. Telefonhívások entitásfelismerésénél – nevek, számlaszámok, dátumok – a Grok STT 5,0%-os hibaráttal működik, szemben az ElevenLabs 12,0%-ával, a Deepgram 13,5%-ával és az AssemblyAI 21,3%-ával. Videó- és podcast-átírásnál a Grok és az ElevenLabs 2,4%-os hibaráttal holtversenyben végzett, míg a Deepgram és az AssemblyAI 3,0%, illetve 3,2%-kal maradt el. Az API 12 hangformátumot támogat, és olyan funkciókat kínál, mint a szó szintű időbélyegek, a beszélő-diarizáció és az intelligens inverz szövegnormalizálás.

Természetes hangszintézis

A Grok TTS API gyors, természetes hangszintézist biztosít, részletes vezérléssel beszédcímkék segítségével, és 1 millió karakterenként 4,20 dollárért érhető el. Az API akár 15 000 karaktert is elfogad REST kérésenként, és 20 nyelvet, valamint öt különböző hangot támogat: Ara, Eve, Leo, Rex és Sal, alapértelmezettként az Eve-vel. A szolgáltatás 2024. március 15-étől elérhető a fejlesztők számára.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom