Frissítve: 1 órája·Ma: 15
Kutatás
AI által generált szöveg

Redundanciával csökkentenék a vizuális hallucinációkat a nyelvi modelleknél

A vizuális nyelvi modellek (VLM) gyakran szenvednek hallucinációktól és gyenge robusztusságtól homályos vagy sérült bemenetek esetén, ezt oldaná meg a redundancia növelése.

Redundanciával csökkentenék a vizuális hallucinációkat a nyelvi modelleknél
Fotó: The New York Public Library / Unsplash
Forrás: ArXiv CVSzerző: AI Forradalom szerk.
Megosztás

A vizuális nyelvi modellek (VLM) hallucinációi és robusztussági problémái orvosolhatók a modalitások közötti megosztott információk kihasználásával — állítja egy új kutatás, amely előnyomtatott formában jelent meg az arXiv platformon.

A tanulmány szerzői szerint a modern betanító adathalmazok gyakran megszüntetik a redundanciákat, hogy a vizuális alapozásra fókuszáljanak, ami paradox módon hozzájárulhat a hibákhoz. A kutatók hipotézise szerint a modalitások közötti megosztott információk, azaz a redundanciák kihasználása segíthet kompenzálni a sérült vagy kétértelmű bemeneteket, ezzel növelve a modellek megbízhatóságát.

A probléma megoldására egy új módszert javasolnak, a Self-Captioning Multimodal Interaction Tuning nevű munkafolyamatot, amelynek kulcseleme egy Multimodal Interaction Gate. Ez a mechanizmus a kutatók szerint képes az egyedi interakciókat redundáns interakciókká alakítani, ezzel növelve a kihasználható megosztott információ mennyiségét.

A kutatás eredményei azt sugallják, hogy a redundancia növelése jelentősen csökkentheti a vizuálisan indukált hibákat, ami robusztusabbá teheti a VLM-eket. A Multimodal Interaction Gate bevezetése tehát egy új irányt mutathat a megbízhatóbb vizuális nyelvi modellek fejlesztésében.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom