WebRTC-re épít az OpenAI: valós idejű hang AI-t szállít 900 millió felhasználónak
A technológia a ChatGPT hangfunkcióját, a Realtime API-t és számos kutatási projektet is támogatja, gyorsabb és természetesebb interakciókat ígérve.

Új WebRTC architektúrával oldja meg a valós idejű hang AI-rendszerek skálázhatóságát az OpenAI, hogy a beszélgetések a beszéd sebességével mozogjanak — írja a cég a blogján. A fejlesztés célja, hogy a mesterséges intelligencia alapú hanginterakciók ne akadozzanak, elkerülve a kellemetlen szüneteket vagy megszakításokat.
A vállalat szerint a valós idejű hang AI három alapvető követelménynek kell megfeleljen: globális elérés több mint 900 millió heti aktív felhasználó számára, gyors kapcsolatfelépítés és alacsony, stabil média oda-vissza út ideje, minimális jitterrel és csomagvesztéssel. Ez utóbbi biztosítja, hogy a beszélgetésváltások gördülékenyek legyenek.
A hanghullámok hídjai
A WebRTC egy nyílt szabvány az alacsony késleltetésű hang, videó és adat továbbítására böngészők, mobilalkalmazások és szerverek között. Bár gyakran peer-to-peer hívásokhoz kötik, az OpenAI szerint kiváló alap a kliens-szerver valós idejű rendszerekhez. A szabványosított protokollok, mint az ICE, DTLS és SRTP, egyszerűsítik a csatlakozást, titkosítást és a hálózati feltételekhez való alkalmazkodást.
Az OpenAI a transzceiver modellt választotta, ahol egy WebRTC él szolgáltatás fogadja a kliens kapcsolatot, majd a médiaadatokat és eseményeket egyszerűbb belső protokollokká alakítja át a modellkövetkeztetés, átírás, beszédszintézis és orchestráció számára. Ez a megközelítés lehetővé teszi, hogy a háttérszolgáltatások hagyományos módon skálázódjanak, anélkül, hogy maguk is WebRTC peerként működnének. Az OpenAI Realtime API-ja például a hagyományos STT → LLM → TTS folyamatot megkerülve közvetlenül dolgozza fel a hangbemenetet és generál hangkimenetet.
A szilárd alapok
A kezdeti implementáció egyetlen Go szolgáltatásként valósult meg, amely a Pion keretrendszerre épül, és kezeli a jelzést és a média lezárását is. A szolgáltatás Kubernetes környezetben fut, ami skálázhatóságot és rugalmasságot biztosít. A hagyományos, egy port per munkamenet WebRTC modell azonban rosszul illeszkedik ehhez a környezethez, mivel nagy nyilvános UDP porttartományokat igényel, amelyeket nehéz kezelni és biztonságossá tenni. Az OpenAI csapata ezért a portkimerülés problémáját is orvosolta az új architektúrával. Az OpenAI a 2023. év végére tervezi a WebRTC alapú hang AI rendszerének teljes körű integrációját a ChatGPT-be.