EchoDistill javítja a zajos audio LLM-ek pontosságát valós időben
Az EchoDistill egy ön‑diszszillációs megközelítést vezet be, amely egy fagyasztott tiszta‑audio tanár segítségével növeli a zajos audio LLM-ek megbízhatóságát.

Az audio nagy nyelvi modellek (ALLM-ek) rendkívül érzékenyek a valós világ zajára, ami gyakran szintaktikai elcsúszáshoz és hallucinációkhoz vezet — írja az arXiv.
A zaj rejtett veszélyei
A jelenlegi robusztussági megoldások főként hullámforma‑szintű akusztikus javítást, válasz‑szintű felügyeletet vagy a zajreprezentációk belső elnyomását alkalmazzák, de ezek nem képesek teljesen kiküszöbölni a zaj okozta torzulásokat.
A tiszta tanár szerepe
Az EchoDistill egy fagyasztott, tiszta‑audio tanárt használ, amely szemantikai referenciákat biztosít egy zajos‑audio diák modellnek; a diák zajos körülmények között generál válaszjelölt‑pályákat, melyeket a csoport‑relatív politika‑optimalizáció (GRPO) finomhangol a token‑szintű konzisztencia jutalommal.
Az audio‑tudatos jutalomformálás tovább finomítja a diák kimenetét, hogy a jobban illeszkedjen a tiszta tanár által nyújtott szemantikai bizonyítékokhoz, ezáltal csökkentve a zaj által indukált félreértéseket.
A szerzők szerint az EchoDistill képes a zajos diák válaszait a tiszta szemantikai bizonyítékokkal összehangolni, és az audio‑tudatos jutalomformálás javítja a robusztusságot, bár a tényleges teljesítményjavulást még nem validálták empirikusan.
Az EchoDistill v1 preprint már elérhető az arXiv-en, 2024. március 10-én.