Multispektrális adatokat is ért már a Gemini 2.5 — új módszerrel
A jelenlegi nagyméretű multimodális modellek (LMM) jellemzően csak RGB képeken képződnek, ami korlátozza alkalmazhatóságukat a távérzékelésben.

Új, tréningmentes megközelítést javasolnak kutatók, amely lehetővé teszi a meglévő, RGB-alapú multimodális modellek számára a multispektrális adatok feldolgozását — derül ki az arXiv előnyomtatott tanulmányából.
A multispektrális képek kulcsfontosságú bemeneti jelek a távérzékelési alkalmazásokban, például a földhasználat- és földborítás-osztályozásban, valamint a környezeti megfigyelésben. Azonban a speciális multispektrális multimodális modellek képzése rendkívül költséges, és egyedi, specializált modelleket eredményez.
Tréningmentes megoldás
A kutatók megoldása a multispektrális adatokat a standard, csak RGB-képekkel dolgozó LMM-ek következtetési folyamatába integrálja. Ez a megközelítés kihasználja a LMM-ek vizuális térről alkotott megértését azáltal, hogy a nem RGB bemeneteket ehhez a térhez igazítja, és tartományspecifikus információkat, valamint Chain-of-Thought (gondolatmenet-lánc) érvelést injektál utasításként.
A Gemini 2.5 modellel demonstrálva a módszer erős Zero-Shot teljesítménynövekedést mutatott népszerű távérzékelési benchmarkokon a kutatók szerint. Ez a megközelítés költséghatékony alternatívát kínál a speciális multispektrális modellek képzésével szemben, és jelentősen bővítheti a meglévő LMM-ek alkalmazási körét.
A tanulmány az arXiv:2604.21032v1 azonosítóval érhető el.