Új dekódolási módszerrel csökken a VLM-ek hallucinációja

A vizuális-nyelvi modelleket (VLM) gyakran gyengíti az objektum-hallucináció, amikor a generált tartalom ellentmond a vizuális valóságnak. Ennek oka a nyelvi előítéletekre való túlzott támaszkodás — írja az ArXiv ML-en megjelent tanulmány.

A kutatók most bemutatták a Positive-and-Negative Decoding (PND) nevű, tréningmentes következtetési keretrendszert, amely közvetlenül a dekódolási folyamatba avatkozik be a vizuális hűség érvényesítése érdekében. A PND-t az a felismerés motiválta, hogy a VLM-ekben figyelem-egyensúlyhiány tapasztalható, ahol a vizuális jellemzők alulsúlyozottak.

A dekódolás árnyalatai

A keretrendszer egy kettős útvonalú kontrasztot vezet be: egy pozitív utat, amely felerősíti a vizuális bizonyítékokat, és egy negatív utat, amely ellenkező tényeket konstruál a prior-domináns generációk büntetésére. A dekódolás során mindkét út kimeneteinek összehasonlításával a PND vizuálisan megalapozott eredmények felé tereli a generációt.

Vizuális hűség a gyakorlatban

A POPE, MME és CHAIR benchmarkokon végzett kísérletek a PND-vel tréning nélkül is élvonalbeli teljesítményt mutattak. A módszerrel a VLM-ek megbízhatósága jelentősen növelhető, ami kritikus fontosságú a valós alkalmazásokban, például a 2024-es tesztelési céloknál az ArXiv ML-en megjelent tanulmány szerint.