M2Retinexformer: mélységi adatokkal javítja a gyenge fényű képeket az új Retinexformer modell
A modell a korábbi egy-modalitású RGB-információ helyett több adatforrást, köztük mélységi információkat is felhasznál a zaj, az artefaktok és a színtorzulás csökkentésére.

Új multimodális Retinexformer rendszert, a M2Retinexformert mutattak be kutatók, amely mélységi, luminancia és szemantikai adatokkal javítja a gyenge fényviszonyok között készült képeket — írja az ArXiv CV-n megjelent tanulmány.
A gyenge fényű képek javítása eddig is jelentős kihívást jelentett a felerősödő zaj, az artefaktok és a színtorzulás miatt. A korábbi Retinex-alapú mélytanulási módszerek ígéretes eredményeket hoztak, de főként egyetlen modalitású RGB-információra támaszkodtak.
A rendszer a mélységi információkat geometriai kontextusként használja, amely független a fényviszonyoktól. A luminancia és a szemantikai jellemzők explicit útmutatást nyújtanak a fényerő eloszlásához és a jelenet megértéséhez.
A multimodális egyesítés
A különböző modalitásokat több skálán is kinyerik, majd kereszt-figyelem mechanizmuson keresztül egyesítik. Az adaptív kapuzás dinamikusan egyensúlyozza a megvilágítás-vezérelt önszelekciót és a kereszt-figyelmet, az auxilliáris jelek megbízhatósága alapján.
A modell teljesítménye
A LOL, SID, SMID és SDSD benchmarkokon végzett értékelések szerint a M2Retinexformer jelentősen felülmúlja a korábbi modelleket, pontosabb és tisztább képeket eredményezve gyenge fényviszonyok között. A modell a progresszív finomhangolási folyamat révén képes a komplex degradációk hatékony kezelésére, és az ArXiv CV-n megjelent tanulmány 2024. március 10-én történő publikálásakor a M2Retinexformer modell a 95,6%-os képpontosságot érte el a SID benchmarkon.