Kutatás2026. máj. 8.frissítve: 06:30

215 ezer példával tanítja a nyelvi modelleket a társalgás időzítésére a When2Speak

A jelenlegi nagyméretű nyelvi modellek (LLM) gyengén teljesítenek a több résztvevős beszélgetések megfelelő időzítésében, ami zavaró megszakításokhoz vezet.

Fotó: jarmoluk / Pixabay

forrás: ArXiv NLP·AI Forradalom szerk.·2026. május 8.

Megosztás

A nagyméretű nyelvi modellek (LLM) kiválóan generálnak kontextuálisan releváns válaszokat, ám a több résztvevős beszélgetésekben továbbra is rosszul kalibráltak, ahol a megszólalás időzítése éppolyan kritikus, mint a mondanivaló – állítják az arXiv-on megjelent kutatás szerzői.

A kutatók szerint, ha egy modell minden fordulóban naivan válaszol, a túlzott megszakításokhoz és a beszélgetés koherenciájának romlásához vezet. Erre a problémára kínál megoldást a When2Speak, egy szintetikus adathalmaz és egy négylépéses generációs folyamat, amely a csoportos interakciókban történő beavatkozás időzítését tanítja meg a modelleknek.

A hallgatás művészete

Az adathalmaz több mint 215 000 példát tartalmaz, amelyeket 16 000, 2-6 résztvevős beszélgetésből gyűjtöttek. Ezek a beszélgetések sokféle stílust, hangnemet és résztvevői dinamikát ölelnek fel. A When2Speak explicit módon modellezi a „beszélj” vagy „hallgass” döntéseket minden egyes fordulóban.

Beszéd és csend harmóniája

A négylépéses folyamat valós adatokon alapuló megalapozást, strukturált bővítést, ellenőrzött átirat-szintézist és finomhangolásra kész felügyeletet kombinál. A projekt adathalmaza és a generációs folyamat is teljesen nyílt forráskódú, ezzel támogatva a reprodukálhatóságot és a tartományspecifikus beszélgetési stílusokhoz való adaptációt. A When2Speak 215 ezer példányt használ a nyelvi modellek tanítására 2024-ben.

tetszett a cikk? oszd meg →

Megosztás