Új hibamódra bukkantak a multimodális RAG-ban: a 'recorruption' félrevezeti a MLLM-eket

A jelenség, amelyet 'recorruption'-nak neveztek el, akkor következik be, amikor egy egyébként pontos, külső szöveges kontextus hatására a modell feladja a kezdetben helyes vizuális alapú előrejelzését.

Fotó: CDC / Unsplash

Forrás: ArXiv NLP•Szerző: AI Forradalom szerk.•2026. május 10.

Megosztás

A multimodális nagyméretű nyelvi modellek (MLLM-ek) és a lekérdezés-alapú generáció (RAG) kombinációja a hallucinációk csökkentését célozza, ám külső dokumentumok bevezetése súlyos, példány szintű hibamódokat rejthet el — állítja egy friss arXiv tanulmány.

A kutatók azonosították és formalizálták az úgynevezett 'recorruption' jelenséget. Ez akkor történik, amikor még a tökéletesen pontos, 'oracle' kontextus is arra késztet egy egyébként képes modellt, hogy feladja a kezdetben helyes előrejelzését. Ez a hiba különösen kritikus lehet orvosi képértelmezésnél vagy távérzékelési elemzéseknél, ahol a vizuális bizonyítékok felülírása súlyos következményekkel járhat.

A figyelem szétszóródása

A 'recorruption' mögött egy kettős figyelmi összeomlás áll, derül ki a belső figyelmi mátrixok mechanisztikus diagnózisából. Az egyik ok a 'vizuális vakság', amelyet a vizuális figyelem tömegének (Mvis) és élességének (Svis) szisztematikus elnyomása jellemez. A modell ilyenkor nem fordít elegendő figyelmet a képi információkra.

Vizuális és szöveges árnyékok

A másik tényező a 'strukturális pozicionális torzítás', amely arra kényszeríti a modellt, hogy a határtokeneket priorizálja a szemantikai relevanciával szemben. Ez azt jelenti, hogy a modell inkább a szöveg formátumára és elrendezésére figyel, mint annak tényleges tartalmára, még akkor is, ha a vizuálisan ellentmond a képnek.

Az elemzés egy 'Illúzió a sikerre' jelenséget is feltárt. Ez azt mutatja, hogy sok látszólag helyes RAG kimenet csupán pozicionális véletlen egybeesés, ahol a modell nem valóban a vizuális bizonyítékokra alapozza döntését, hanem a lekérdezett szöveg másolásával adja meg a helyesnek tűnő választ. A kutatók szerint ez a munka segíthet felmérni, hogy egy multimodális RAG rendszer valóban vizuális bizonyítékokon alapul-e, vagy csak a lekérdezett szöveget másolja.

A jelenség részleteit az arXiv:2605.05594v1 számú előnyomtatott tanulmányban, 2024. május 10-én tették közzé a kutatók.