A xAI Grok STT API-ja 5%-os hibaráttal veri a versenytársakat
Elon Musk cége, a xAI két új, önálló hang-API-t jelentetett meg, amelyek a Grok mobilalkalmazásokban, Tesla járművekben és Starlink ügyfélszolgálatban használt infrastruktúrára épülnek.

A xAI két önálló hang-API-t – egy Speech-to-Text (STT) és egy Text-to-Speech (TTS) API-t – dobott piacra, amivel közvetlenül a versenytársak, például az ElevenLabs, a Deepgram és az AssemblyAI piacára lép be — írja a MarkTechPost.
A Grok STT API már általánosan elérhető, és 25 nyelven kínál átírást kötegelt és streamelt módban is. A kötegelt mód előre rögzített hangfájlok feldolgozására szolgál, míg a streamelés valós idejű átírást tesz lehetővé. Az árazás egyszerű: a Speech-to-Text szolgáltatás óránként 0,10 dollárba kerül kötegelt módban, és 0,20 dollárba streamelés esetén.
A pontos hangfeldolgozás kulcsa
A xAI kutatócsapata jelentős pontossági előnyöket állít. Telefonhívások entitásfelismerésénél – nevek, számlaszámok, dátumok – a Grok STT 5,0%-os hibaráttal működik, szemben az ElevenLabs 12,0%-ával, a Deepgram 13,5%-ával és az AssemblyAI 21,3%-ával. Videó- és podcast-átírásnál a Grok és az ElevenLabs 2,4%-os hibaráttal holtversenyben végzett, míg a Deepgram és az AssemblyAI 3,0%, illetve 3,2%-kal maradt el. Az API 12 hangformátumot támogat, és olyan funkciókat kínál, mint a szó szintű időbélyegek, a beszélő-diarizáció és az intelligens inverz szövegnormalizálás.
Természetes hangszintézis
A Grok TTS API gyors, természetes hangszintézist biztosít, részletes vezérléssel beszédcímkék segítségével, és 1 millió karakterenként 4,20 dollárért érhető el. Az API akár 15 000 karaktert is elfogad REST kérésenként, és 20 nyelvet, valamint öt különböző hangot támogat: Ara, Eve, Leo, Rex és Sal, alapértelmezettként az Eve-vel. A szolgáltatás 2024. március 15-étől elérhető a fejlesztők számára.