Folyamatos minőségi pontszámokkal értékeli a képfúziót az új FuScore MLLM
Az infravörös-látható képfúzió (IVIF) célja a hőinformáció és a térbeli részletek egyesítése egyetlen képpé, ám a jelenlegi értékelési módszerek korlátozottak.

Új megközelítést javasolnak kutatók az infravörös-látható képfúzió (IVIF) minőségértékelésére, amely a Multimodális Nagyméretű Nyelvi Modelleket (MLLM) hívja segítségül — derül ki az arXiv előnyomtatott tanulmányából.
Az IVIF technológia lényege, hogy a hőkamerás felvételek termikus adatait és a hagyományos, látható fényű képek részletes térbeli struktúráit egyetlen, fúziós képpé integrálja. Ezáltal javulhat a vizuális észlelés, különösen gyenge fényviszonyok vagy bonyolult környezet esetén.
A korábbi IVIF jutalmazási modellezési erőfeszítések ugyan emberi értékelésekből tanultak, de aggregált pontszámokon alapuló skaláris regressziót használtak. Ezek a modellek nem aknázták ki a MLLM-ek érvelési képességeit, és nem kódolták a képenkénti észlelési bizonytalanságot sem.
A FuScore áttörése
E problémák orvoslására vezették be a FuScore nevű rendszert. Ez egy MLLM-et alkalmaz, amely az emberi vizuális észlelés utánzására képes, folyamatos minőségi pontszámokat generálva a diszkrét szintű előrejelzések helyett.
A fúziós képek értékelésének új dimenziója
A FuScore képessége, hogy folyamatos pontszámokat adjon, jelentősen eltér a korábbi diszkrét értékelési rendszerektől. Ezáltal a modell sokkal árnyaltabban tudja megragadni a fúziós képek közötti minőségi különbségeket, ami pontosabb és megbízhatóbb értékeléshez vezethet az IVIF alkalmazásokban. A tanulmány az arXiv:2605.06969v1 számon érhető el, 2023. május 15-én tették közzé.