Frissítve: 5 perce·Ma: 66
Kutatás
AI által generált szöveg

Új modell javítja az érzelmek felismerését a multimodális beszélgetésekben

Ying Liu és munkatársai egy kapcsolatokat figyelembe vevő modellt fejlesztettek ki, amely a szöveg, hang és arckifejezés kombinált elemzésével pontosabban azonosítja a beszélgetések érzelmi tónusát.

Új modell javítja az érzelmek felismerését a multimodális beszélgetésekben
Fotó: JK Sloan / Unsplash
Forrás: ArXiv NLPSzerző: AI Forradalom szerk.
Megosztás

A kutatók egy olyan modellt fejlesztenek, amely javítja a multimodális beszélgetés érzelmi felismerését. Ying Liu és munkatársai egy új, kapcsolatokat figyelembe vevő modellt javasolnak, amely képes kezelni a multimodális beszélgetések érzelmi felismerését. A modell a relációs gráfokon alapuló differenciális zajcsökkentést és diffúziós figyelemfüzionálást alkalmaz.

Az érzelmi felismerés egy fontos terület a multimodális beszélgetésekben, de a zajos modalitások és a modalitások közötti információs egyensúlyhiány miatt nehéz feladat. A legtöbb meglévő módszer figyelmen kívül hagyja a zajos modalitások hatását, és implicit súlyozást használ a modalitások fontosságának modellezésére. Az új modell azonban explicit módon figyelembe veszi a modalitások közötti kapcsolatokat, és a textus modalitás fontosságát az érzelmi megértésben.

A modell működése a következő: először egy differenciális Transformerrel számítják ki a két figyelmi térkép közötti különbséget, ami javítja az időben konzisztens információkat, és elnyomja a zajt. Másodszor, modality-specifikus és cross-modality relációs subgráfokat építenek fel, hogy megragadják a beszélőfüggő érzelmi függőségeket. Harmadszor, egy textus-vezérelt cross-modális diffúziós mechanizmust vezetnek be, amely az önszabályozó figyelmet használja az intra-modális függőségek modellezésére, és adaptív módon terjeszti az audiovizuális információkat a textus modalitásba.

Az új modell hatékonyságát az arXiv oldalon közzétett tanulmányban mutatták be. A modell 19 oldalas, és a Computation and Language, Sound, valamint Audio and Speech Processing témakörökbe tartozik. A szerzők szerint a modell képes kezelni a zajos modalitásokat, és javítja a multimodális beszélgetések érzelmi felismerését.

A következő lépésben a kutatók továbbfejleszthetik a modellt, és tesztelhetik különböző multimodális beszélgetési adatokon. Az új modell potenciálisan alkalmazható lesz az érzelmi intelligencia, a beszédfelismerés és a multimodális interakció területén.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom