Kutatás2026. máj. 12.frissítve: 06:50

Redundanciával csökkentenék a vizuális hallucinációkat a nyelvi modelleknél

A vizuális nyelvi modellek (VLM) gyakran szenvednek hallucinációktól és gyenge robusztusságtól homályos vagy sérült bemenetek esetén, ezt oldaná meg a redundancia növelése.

Fotó: The New York Public Library / Unsplash

forrás: ArXiv CV·AI Forradalom szerk.·2026. május 12.

Megosztás

A vizuális nyelvi modellek (VLM) hallucinációi és robusztussági problémái orvosolhatók a modalitások közötti megosztott információk kihasználásával — állítja egy új kutatás, amely előnyomtatott formában jelent meg az arXiv platformon.

A tanulmány szerzői szerint a modern betanító adathalmazok gyakran megszüntetik a redundanciákat, hogy a vizuális alapozásra fókuszáljanak, ami paradox módon hozzájárulhat a hibákhoz. A kutatók hipotézise szerint a modalitások közötti megosztott információk, azaz a redundanciák kihasználása segíthet kompenzálni a sérült vagy kétértelmű bemeneteket, ezzel növelve a modellek megbízhatóságát.

A probléma megoldására egy új módszert javasolnak, a Self-Captioning Multimodal Interaction Tuning nevű munkafolyamatot, amelynek kulcseleme egy Multimodal Interaction Gate. Ez a mechanizmus a kutatók szerint képes az egyedi interakciókat redundáns interakciókká alakítani, ezzel növelve a kihasználható megosztott információ mennyiségét.

A kutatás eredményei azt sugallják, hogy a redundancia növelése jelentősen csökkentheti a vizuálisan indukált hibákat, ami robusztusabbá teheti a VLM-eket. A Multimodal Interaction Gate bevezetése tehát egy új irányt mutathat a megbízhatóbb vizuális nyelvi modellek fejlesztésében.

tetszett a cikk? oszd meg →

Megosztás