Az OpenAI API-ja valós idejű beszélgetést, fordítást és átírást kap
Az új funkciók valós idejű beszélgetést, fordítást és átírást tesznek lehetővé, jelentősen kibővítve a fejlesztők lehetőségeit.

Az OpenAI API-ja mostantól új hangalapú intelligencia funkciókat tartalmaz, amelyekkel a fejlesztők olyan alkalmazásokat hozhatnak létre, amelyek képesek beszélgetni, átírni és fordítani a felhasználókkal folytatott párbeszédeket — írja a TechCrunch.
Bemutatkozott a GPT-Realtime-2, egy új hangmodell, amely az OpenAI szerint GPT-5-osztályú érveléssel rendelkezik, és a felhasználók bonyolultabb kéréseinek kezelésére hozták létre. Ezenkívül megjelent a GPT-Realtime-Translate is, amely valós idejű fordítási szolgáltatásokat nyújt több mint 70 bemeneti és 13 kimeneti nyelven. A harmadik újdonság a GPT-Realtime-Whisper, amely élő beszédfelismerési képességeket biztosít, azonnal átírva az interakciókat.
A hangalapú interakciók új korszaka
Az OpenAI szerint az új modellek a valós idejű hangalapú interakciókat az egyszerű kérdés-válasz rendszerekből olyan hangfelületekké emelik, amelyek képesek meghallgatni, érvelni, fordítani, átírni és cselekedni a beszélgetés során. Az alkalmazási területek szélesek, a vevőszolgálattól az oktatásig, a médiáig, rendezvényekig és tartalomkészítő platformokig terjednek.
A biztonság és a védelem
A vállalat védőkorlátokat épített be, hogy megakadályozza az új funkciók visszaélését spam, csalás vagy más online visszaélés céljából. A rendszerbe bizonyos triggereket ágyaztak be, amelyek leállítják a beszélgetéseket, ha azok sértik a káros tartalomra vonatkozó irányelveket. Az új hangmodellek mind az OpenAI Realtime API-jában érhetők el, a Translate és Whisper percenként, míg a GPT-Realtime-2 tokenfogyasztás alapján kerül elszámolásra, 2024. március elsejétől.