WebRTC-re épít az OpenAI: valós idejű hang AI-t szállít 900 millió felhasználónak

Új WebRTC architektúrával oldja meg a valós idejű hang AI-rendszerek skálázhatóságát az OpenAI, hogy a beszélgetések a beszéd sebességével mozogjanak — írja a cég a blogján. A fejlesztés célja, hogy a mesterséges intelligencia alapú hanginterakciók ne akadozzanak, elkerülve a kellemetlen szüneteket vagy megszakításokat.

A vállalat szerint a valós idejű hang AI három alapvető követelménynek kell megfeleljen: globális elérés több mint 900 millió heti aktív felhasználó számára, gyors kapcsolatfelépítés és alacsony, stabil média oda-vissza út ideje, minimális jitterrel és csomagvesztéssel. Ez utóbbi biztosítja, hogy a beszélgetésváltások gördülékenyek legyenek.

A hanghullámok hídjai

A WebRTC egy nyílt szabvány az alacsony késleltetésű hang, videó és adat továbbítására böngészők, mobilalkalmazások és szerverek között. Bár gyakran peer-to-peer hívásokhoz kötik, az OpenAI szerint kiváló alap a kliens-szerver valós idejű rendszerekhez. A szabványosított protokollok, mint az ICE, DTLS és SRTP, egyszerűsítik a csatlakozást, titkosítást és a hálózati feltételekhez való alkalmazkodást.

Az OpenAI a transzceiver modellt választotta, ahol egy WebRTC él szolgáltatás fogadja a kliens kapcsolatot, majd a médiaadatokat és eseményeket egyszerűbb belső protokollokká alakítja át a modellkövetkeztetés, átírás, beszédszintézis és orchestráció számára. Ez a megközelítés lehetővé teszi, hogy a háttérszolgáltatások hagyományos módon skálázódjanak, anélkül, hogy maguk is WebRTC peerként működnének. Az OpenAI Realtime API-ja például a hagyományos STT → LLM → TTS folyamatot megkerülve közvetlenül dolgozza fel a hangbemenetet és generál hangkimenetet.

A szilárd alapok

A kezdeti implementáció egyetlen Go szolgáltatásként valósult meg, amely a Pion keretrendszerre épül, és kezeli a jelzést és a média lezárását is. A szolgáltatás Kubernetes környezetben fut, ami skálázhatóságot és rugalmasságot biztosít. A hagyományos, egy port per munkamenet WebRTC modell azonban rosszul illeszkedik ehhez a környezethez, mivel nagy nyilvános UDP porttartományokat igényel, amelyeket nehéz kezelni és biztonságossá tenni. Az OpenAI csapata ezért a portkimerülés problémáját is orvosolta az új architektúrával. Az OpenAI a 2023. év végére tervezi a WebRTC alapú hang AI rendszerének teljes körű integrációját a ChatGPT-be.