Új modell javítja az érzelmek felismerését a multimodális beszélgetésekben
Ying Liu és munkatársai egy kapcsolatokat figyelembe vevő modellt fejlesztettek ki, amely a szöveg, hang és arckifejezés kombinált elemzésével pontosabban azonosítja a beszélgetések érzelmi tónusát.

A kutatók egy olyan modellt fejlesztenek, amely javítja a multimodális beszélgetés érzelmi felismerését. Ying Liu és munkatársai egy új, kapcsolatokat figyelembe vevő modellt javasolnak, amely képes kezelni a multimodális beszélgetések érzelmi felismerését. A modell a relációs gráfokon alapuló differenciális zajcsökkentést és diffúziós figyelemfüzionálást alkalmaz.
Az érzelmi felismerés egy fontos terület a multimodális beszélgetésekben, de a zajos modalitások és a modalitások közötti információs egyensúlyhiány miatt nehéz feladat. A legtöbb meglévő módszer figyelmen kívül hagyja a zajos modalitások hatását, és implicit súlyozást használ a modalitások fontosságának modellezésére. Az új modell azonban explicit módon figyelembe veszi a modalitások közötti kapcsolatokat, és a textus modalitás fontosságát az érzelmi megértésben.
A modell működése a következő: először egy differenciális Transformerrel számítják ki a két figyelmi térkép közötti különbséget, ami javítja az időben konzisztens információkat, és elnyomja a zajt. Másodszor, modality-specifikus és cross-modality relációs subgráfokat építenek fel, hogy megragadják a beszélőfüggő érzelmi függőségeket. Harmadszor, egy textus-vezérelt cross-modális diffúziós mechanizmust vezetnek be, amely az önszabályozó figyelmet használja az intra-modális függőségek modellezésére, és adaptív módon terjeszti az audiovizuális információkat a textus modalitásba.
Az új modell hatékonyságát az arXiv oldalon közzétett tanulmányban mutatták be. A modell 19 oldalas, és a Computation and Language, Sound, valamint Audio and Speech Processing témakörökbe tartozik. A szerzők szerint a modell képes kezelni a zajos modalitásokat, és javítja a multimodális beszélgetések érzelmi felismerését.
A következő lépésben a kutatók továbbfejleszthetik a modellt, és tesztelhetik különböző multimodális beszélgetési adatokon. Az új modell potenciálisan alkalmazható lesz az érzelmi intelligencia, a beszédfelismerés és a multimodális interakció területén.