Redundanciával csökkentenék a vizuális hallucinációkat a nyelvi modelleknél
A vizuális nyelvi modellek (VLM) gyakran szenvednek hallucinációktól és gyenge robusztusságtól homályos vagy sérült bemenetek esetén, ezt oldaná meg a redundancia növelése.

A vizuális nyelvi modellek (VLM) hallucinációi és robusztussági problémái orvosolhatók a modalitások közötti megosztott információk kihasználásával — állítja egy új kutatás, amely előnyomtatott formában jelent meg az arXiv platformon.
A tanulmány szerzői szerint a modern betanító adathalmazok gyakran megszüntetik a redundanciákat, hogy a vizuális alapozásra fókuszáljanak, ami paradox módon hozzájárulhat a hibákhoz. A kutatók hipotézise szerint a modalitások közötti megosztott információk, azaz a redundanciák kihasználása segíthet kompenzálni a sérült vagy kétértelmű bemeneteket, ezzel növelve a modellek megbízhatóságát.
A probléma megoldására egy új módszert javasolnak, a Self-Captioning Multimodal Interaction Tuning nevű munkafolyamatot, amelynek kulcseleme egy Multimodal Interaction Gate. Ez a mechanizmus a kutatók szerint képes az egyedi interakciókat redundáns interakciókká alakítani, ezzel növelve a kihasználható megosztott információ mennyiségét.
A kutatás eredményei azt sugallják, hogy a redundancia növelése jelentősen csökkentheti a vizuálisan indukált hibákat, ami robusztusabbá teheti a VLM-eket. A Multimodal Interaction Gate bevezetése tehát egy új irányt mutathat a megbízhatóbb vizuális nyelvi modellek fejlesztésében.