Kutatás2026. máj. 21.frissítve: 08:50

Emberibb párbeszédeket ígér a Moshi modell: valós idejű szinkronizációt mértek

Az emberi kommunikációhoz hasonlóan egyszerre hallgató és beszélő AI-modellek belső működését elemezték, ami zajmentes környezetben erős szinkronizációt mutatott.

Fotó: Marco / Unsplash

forrás: ArXiv NLP·AI Forradalom szerk.·2026. május 21.

Megosztás

A full-duplex beszédalapú modellek (SDM-ek) képesek egyszerre hallgatni és beszélni, ami az emberi beszélgetésekhez közelebb álló interakciós dinamikát tesz lehetővé — írja az arXiv-on megjelent tanulmány.

A kutatók a Moshi nevű előre betanított modell két példánya közötti full-duplex párbeszédeket szimulálták ellenőrzött körülmények között. A vizsgálat során a csatornazajt és a dekódolási torzítást is manipulálták.

A szinkronizáció mélyén

A szinkronizációt a Centered Kernel Alignment (CKA) módszerrel mérték különböző időbeli késleltetések mellett. A fordulóváltást előrejelző jeleket késleltetett belső aktivációkból, kauzális LSTM modellek segítségével vizsgálták, mind a beszélő, mind a hallgató perspektívájából.

A modellbeli harmónia

Zajmentes körülmények között erős reprezentációs szinkronizációt találtak, amely nullához közeli késleltetésnél érte el csúcspontját, és zaj hatására romlott. A modellek belső állapotai anticipatív információkat kódolnak, amelyek támogatják a fordulóváltás előzetes előrejelzését.

A Moshi modell belső állapotainak elemzése 2024. márciusra befejeződött, a kutatók a következő lépésekben a modell további fejlesztésén dolgoznak.

tetszett a cikk? oszd meg →

Megosztás