Új HMM-modell követi a beszélgetések érzelmi ívét — videóval és szöveggel is
A modell a meglévő, mondatszintű elemzések helyett a hosszabb, tartós érzelmi fázisokat azonosítja, ami pontosabb képet ad a kommunikáció dinamikájáról.

Új, könnyed rendszert javasolnak kutatók a beszélgetések érzelmi állapotának követésére, amely a videó, hang és szöveges bemenetekből származó multimodális valencia-arousal reprezentációkat használja — írja az ArXiv-on megjelent tanulmány. A modell a rejtett Markov-modellek (HMM) egy speciális változatát, a sticky faktoriális HDP-HMM-eket alkalmazza.
Az érzelmi állapotkövetés kulcsfontosságú a kommunikáció megértésében és irányításában, különösen klinikai beszélgetési kontextusokban. A jelenlegi érzelemfelismerő megközelítések jellemzően mondatszinten működnek, ami elrejti a valós beszélgetési dinamikát jellemző tartós érzelmi fázisokat.
Az érzelmek tengerén
A kutatók a rendszer minőségét LLM-as-a-Judge, geometriai és időbeli konzisztencia metrikákkal értékelték. Az eredmények szerint a sticky HDP-HMM értelmezhetőbb érzelmi fázisszekvenciákat produkál, mint az alapértelmezett Gauss-HMM.
A pontosabb horizont
A modell jelentős előnye, hogy a számítási költsége töredéke a LLM-alapú dialógusállapot-követő módszereknek, miközben pontosabb és értelmezhetőbb eredményeket szolgáltat a beszélgetések érzelmi ívének elemzésében. Az ArXiv-on megjelent tanulmány 2024. március 10-én mutatta be a sticky HDP-HMM modell részleteit.