Jelentősen javítja a szöveges VLM-pontosságot egy új modul — kép nélkül is megbízhatóbb
A látás-nyelvi modellek (VLM) pontatlanná válnak és rosszul kalibrálódnak, ha hiányzik a vizuális bemenet, annak ellenére, hogy képekkel vannak betanítva.

Jelentős pontosságcsökkenést és súlyos tévkalibrációt tapasztalnak a látás-nyelvi modellek (VLM), amikor csak szöveges bemenettel dolgoznak — állapítja meg egy új kutatás, amelyet az arXiv-on tettek közzé előnyomtatott formában.
A kutatók szerint ez a jelenség nem csupán a hiányzó szemantikai információval magyarázható. Még akkor is megbízhatatlanná válik a modell magabiztossága, ha a szöveges leírások megőrzik a kulcsfontosságú tartalmat. A generált képekkel hozzáadott vizuális jel azonban részben helyreállítja a pontosságot és a kalibrációt.
A látás-nyelvi modellek mélyvízben
A problémára a Latent Imagination Module (LIM) nevű könnyű, kereszt-figyelmi modul kínál megoldást. Ez a modul képzeletbeli látens beágyazásokat generál a szöveges bemenetből, majd ezeket egy fagyasztott VLM-gerincbe táplálja, pixel-szintű képgenerálás nélkül.
A pontosság vízszintje
A kutatók szerint a LIM javítja a pontosságot és csökkenti a kalibrációs hibát a szöveges benchmarkokon, az ismeretlen feladatokon és a hiányzó képekkel járó forgatókönyvekben is. Ezek az eredmények arra utalnak, hogy a látens modalitás kiegészítése ígéretes irány a robusztus VLM telepítéshez.
A kutatás az arXiv:2605.12517v1 azonosító alatt érhető el, a szerzők a következő hónapokban tervezik nyilvánosságra hozni a részleteket a Stanford Egyetem és a Google Alkalmazott Tudományok Intézete közreműködésével, 2024. év végéig.