Frissítve: 15 perce·Ma: 58
Kutatás
AI által generált szöveg

Az EVA keretrendszer 50 légiközlekedési forgatókönyvvel teszteli a hangalapú ügynököket

Tara Bogavelli és csapata 20 különböző hangalapú modellt tesztelt az EVA keretrendszerrel.

Az EVA keretrendszer 50 légiközlekedési forgatókönyvvel teszteli a hangalapú ügynököket
Fotó: steven maarten william V / Unsplash
Forrás: Hugging FaceSzerző: AI Forradalom szerk.
Megosztás

A ServiceNow-AI csapata, Tara Bogavelli vezetésével, bemutatta az EVA keretrendszert, amely 50 légiközlekedési forgatókönyvben teszteli a hangalapú ügynököket. A teszteléshez 20 különböző modellt használtak, köztük cascade és audio-native rendszereket, mint a speech‑to‑speech (S2S) és a Large Audio Language Models (LALMs).

Az EVA célja, hogy egyszerre mérje a feladatmegoldás pontosságát (EVA‑A) és a beszélgetés élményét (EVA‑X). A hagyományos módszerek csak a transzkripciót vagy a hangminőséget értékelik, míg az EVA valós, több körben zajló, bot‑to‑bot audio interakciókat szimulál, így jobban tükrözi a tényleges használati körülményeket.

A keretrendszer öt fő komponensből áll: a User Simulator, amely TTS‑al generált, természetes hangú ügyfelet alakít; a Voice Agent, amelyet Pipecat keretrendszerrel fejlesztettek; a Tool Executor, amely determinisztikus válaszokat ad; a Validators, amelyek anélkül ellenőrzik a beszélgetéseket, hogy emberi jelölést igényelnének; és a Metrics Suite, amely a pontosságot és az élményt egyaránt mér.

A legfontosabb eredmény, hogy a tesztelés során következetes Accuracy‑Experience tradeoff jelent meg: a feladatmegoldásban erősebb ügynökök gyakran rosszabb élményt nyújtanak, és fordítva. Ez a felfedezés segíthet a fejlesztőknek abban, hogy kiegyensúlyozottabb rendszereket hozzanak létre.

A keretrendszer most egy légiközlekedési adatbázison fut, de a ServiceNow-AI tervezi, hogy további területekre is kiterjeszti a tesztelést. A következő hónapokban várható a további domain‑specifikus forgatókönyvek és a benchmark eredmények frissítése. A részletek a Hugging Face weboldalon érhetők el.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom