Kutatás2026. máj. 26.frissítve: 08:50

EchoDistill javítja a zajos audio LLM-ek pontosságát valós időben

Az EchoDistill egy ön‑diszszillációs megközelítést vezet be, amely egy fagyasztott tiszta‑audio tanár segítségével növeli a zajos audio LLM-ek megbízhatóságát.

Fotó: Jordan Madrid / Unsplash

forrás: ArXiv NLP·AI Forradalom szerk.·2026. május 26.

Megosztás

Az audio nagy nyelvi modellek (ALLM-ek) rendkívül érzékenyek a valós világ zajára, ami gyakran szintaktikai elcsúszáshoz és hallucinációkhoz vezet — írja az arXiv.

A zaj rejtett veszélyei

A jelenlegi robusztussági megoldások főként hullámforma‑szintű akusztikus javítást, válasz‑szintű felügyeletet vagy a zajreprezentációk belső elnyomását alkalmazzák, de ezek nem képesek teljesen kiküszöbölni a zaj okozta torzulásokat.

A tiszta tanár szerepe

Az EchoDistill egy fagyasztott, tiszta‑audio tanárt használ, amely szemantikai referenciákat biztosít egy zajos‑audio diák modellnek; a diák zajos körülmények között generál válaszjelölt‑pályákat, melyeket a csoport‑relatív politika‑optimalizáció (GRPO) finomhangol a token‑szintű konzisztencia jutalommal.

Az audio‑tudatos jutalomformálás tovább finomítja a diák kimenetét, hogy a jobban illeszkedjen a tiszta tanár által nyújtott szemantikai bizonyítékokhoz, ezáltal csökkentve a zaj által indukált félreértéseket.

A szerzők szerint az EchoDistill képes a zajos diák válaszait a tiszta szemantikai bizonyítékokkal összehangolni, és az audio‑tudatos jutalomformálás javítja a robusztusságot, bár a tényleges teljesítményjavulást még nem validálták empirikusan.

Az EchoDistill v1 preprint már elérhető az arXiv-en, 2024. március 10-én.

tetszett a cikk? oszd meg →

Megosztás