215 ezer példával tanítja a nyelvi modelleket a társalgás időzítésére a When2Speak
A jelenlegi nagyméretű nyelvi modellek (LLM) gyengén teljesítenek a több résztvevős beszélgetések megfelelő időzítésében, ami zavaró megszakításokhoz vezet.

A nagyméretű nyelvi modellek (LLM) kiválóan generálnak kontextuálisan releváns válaszokat, ám a több résztvevős beszélgetésekben továbbra is rosszul kalibráltak, ahol a megszólalás időzítése éppolyan kritikus, mint a mondanivaló – állítják az arXiv-on megjelent kutatás szerzői.
A kutatók szerint, ha egy modell minden fordulóban naivan válaszol, a túlzott megszakításokhoz és a beszélgetés koherenciájának romlásához vezet. Erre a problémára kínál megoldást a When2Speak, egy szintetikus adathalmaz és egy négylépéses generációs folyamat, amely a csoportos interakciókban történő beavatkozás időzítését tanítja meg a modelleknek.
A hallgatás művészete
Az adathalmaz több mint 215 000 példát tartalmaz, amelyeket 16 000, 2-6 résztvevős beszélgetésből gyűjtöttek. Ezek a beszélgetések sokféle stílust, hangnemet és résztvevői dinamikát ölelnek fel. A When2Speak explicit módon modellezi a „beszélj” vagy „hallgass” döntéseket minden egyes fordulóban.
Beszéd és csend harmóniája
A négylépéses folyamat valós adatokon alapuló megalapozást, strukturált bővítést, ellenőrzött átirat-szintézist és finomhangolásra kész felügyeletet kombinál. A projekt adathalmaza és a generációs folyamat is teljesen nyílt forráskódú, ezzel támogatva a reprodukálhatóságot és a tartományspecifikus beszélgetési stílusokhoz való adaptációt. A When2Speak 215 ezer példányt használ a nyelvi modellek tanítására 2024-ben.