Emberibb párbeszédeket ígér a Moshi modell: valós idejű szinkronizációt mértek
Az emberi kommunikációhoz hasonlóan egyszerre hallgató és beszélő AI-modellek belső működését elemezték, ami zajmentes környezetben erős szinkronizációt mutatott.

A full-duplex beszédalapú modellek (SDM-ek) képesek egyszerre hallgatni és beszélni, ami az emberi beszélgetésekhez közelebb álló interakciós dinamikát tesz lehetővé — írja az arXiv-on megjelent tanulmány.
A kutatók a Moshi nevű előre betanított modell két példánya közötti full-duplex párbeszédeket szimulálták ellenőrzött körülmények között. A vizsgálat során a csatornazajt és a dekódolási torzítást is manipulálták.
A szinkronizáció mélyén
A szinkronizációt a Centered Kernel Alignment (CKA) módszerrel mérték különböző időbeli késleltetések mellett. A fordulóváltást előrejelző jeleket késleltetett belső aktivációkból, kauzális LSTM modellek segítségével vizsgálták, mind a beszélő, mind a hallgató perspektívájából.
A modellbeli harmónia
Zajmentes körülmények között erős reprezentációs szinkronizációt találtak, amely nullához közeli késleltetésnél érte el csúcspontját, és zaj hatására romlott. A modellek belső állapotai anticipatív információkat kódolnak, amelyek támogatják a fordulóváltás előzetes előrejelzését.
A Moshi modell belső állapotainak elemzése 2024. márciusra befejeződött, a kutatók a következő lépésekben a modell további fejlesztésén dolgoznak.