Frissítve: 1 órája·Ma: 15
Kutatás
AI által generált szöveg

Új dekódolási módszerrel csökken a VLM-ek hallucinációja

A módszer a vizuális jellemzők alulsúlyozására épülő figyelem-egyensúlyhiányt korrigálja a nyelvi modellekben, jelentősen javítva a válaszok pontosságát.

Új dekódolási módszerrel csökken a VLM-ek hallucinációja
Fotó: National Cancer Institute / Unsplash
Forrás: ArXiv MLSzerző: AI Forradalom szerk.
Megosztás

A vizuális-nyelvi modelleket (VLM) gyakran gyengíti az objektum-hallucináció, amikor a generált tartalom ellentmond a vizuális valóságnak. Ennek oka a nyelvi előítéletekre való túlzott támaszkodás — írja az ArXiv ML-en megjelent tanulmány.

A kutatók most bemutatták a Positive-and-Negative Decoding (PND) nevű, tréningmentes következtetési keretrendszert, amely közvetlenül a dekódolási folyamatba avatkozik be a vizuális hűség érvényesítése érdekében. A PND-t az a felismerés motiválta, hogy a VLM-ekben figyelem-egyensúlyhiány tapasztalható, ahol a vizuális jellemzők alulsúlyozottak.

A dekódolás árnyalatai

A keretrendszer egy kettős útvonalú kontrasztot vezet be: egy pozitív utat, amely felerősíti a vizuális bizonyítékokat, és egy negatív utat, amely ellenkező tényeket konstruál a prior-domináns generációk büntetésére. A dekódolás során mindkét út kimeneteinek összehasonlításával a PND vizuálisan megalapozott eredmények felé tereli a generációt.

Vizuális hűség a gyakorlatban

A POPE, MME és CHAIR benchmarkokon végzett kísérletek a PND-vel tréning nélkül is élvonalbeli teljesítményt mutattak. A módszerrel a VLM-ek megbízhatósága jelentősen növelhető, ami kritikus fontosságú a valós alkalmazásokban, például a 2024-es tesztelési céloknál az ArXiv ML-en megjelent tanulmány szerint.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom