Kutatás2026. máj. 15.frissítve: 05:50

Jelentősen javítja a szöveges VLM-pontosságot egy új modul — kép nélkül is megbízhatóbb

A látás-nyelvi modellek (VLM) pontatlanná válnak és rosszul kalibrálódnak, ha hiányzik a vizuális bemenet, annak ellenére, hogy képekkel vannak betanítva.

Fotó: Poddar Group of Institutions / Unsplash

forrás: ArXiv NLP·AI Forradalom szerk.·2026. május 15.

Megosztás

Jelentős pontosságcsökkenést és súlyos tévkalibrációt tapasztalnak a látás-nyelvi modellek (VLM), amikor csak szöveges bemenettel dolgoznak — állapítja meg egy új kutatás, amelyet az arXiv-on tettek közzé előnyomtatott formában.

A kutatók szerint ez a jelenség nem csupán a hiányzó szemantikai információval magyarázható. Még akkor is megbízhatatlanná válik a modell magabiztossága, ha a szöveges leírások megőrzik a kulcsfontosságú tartalmat. A generált képekkel hozzáadott vizuális jel azonban részben helyreállítja a pontosságot és a kalibrációt.

A látás-nyelvi modellek mélyvízben

A problémára a Latent Imagination Module (LIM) nevű könnyű, kereszt-figyelmi modul kínál megoldást. Ez a modul képzeletbeli látens beágyazásokat generál a szöveges bemenetből, majd ezeket egy fagyasztott VLM-gerincbe táplálja, pixel-szintű képgenerálás nélkül.

A pontosság vízszintje

A kutatók szerint a LIM javítja a pontosságot és csökkenti a kalibrációs hibát a szöveges benchmarkokon, az ismeretlen feladatokon és a hiányzó képekkel járó forgatókönyvekben is. Ezek az eredmények arra utalnak, hogy a látens modalitás kiegészítése ígéretes irány a robusztus VLM telepítéshez.

A kutatás az arXiv:2605.12517v1 azonosító alatt érhető el, a szerzők a következő hónapokban tervezik nyilvánosságra hozni a részleteket a Stanford Egyetem és a Google Alkalmazott Tudományok Intézete közreműködésével, 2024. év végéig.

tetszett a cikk? oszd meg →

Megosztás