Kutatás2026. ápr. 24.frissítve: 08:50

Multispektrális adatokat is ért már a Gemini 2.5 — új módszerrel

A jelenlegi nagyméretű multimodális modellek (LMM) jellemzően csak RGB képeken képződnek, ami korlátozza alkalmazhatóságukat a távérzékelésben.

Fotó: Kathrine Coonjohn / Unsplash

forrás: ArXiv CV·AI Forradalom szerk.·2026. április 24.

Megosztás

Új, tréningmentes megközelítést javasolnak kutatók, amely lehetővé teszi a meglévő, RGB-alapú multimodális modellek számára a multispektrális adatok feldolgozását — derül ki az arXiv előnyomtatott tanulmányából.

A multispektrális képek kulcsfontosságú bemeneti jelek a távérzékelési alkalmazásokban, például a földhasználat- és földborítás-osztályozásban, valamint a környezeti megfigyelésben. Azonban a speciális multispektrális multimodális modellek képzése rendkívül költséges, és egyedi, specializált modelleket eredményez.

Tréningmentes megoldás

A kutatók megoldása a multispektrális adatokat a standard, csak RGB-képekkel dolgozó LMM-ek következtetési folyamatába integrálja. Ez a megközelítés kihasználja a LMM-ek vizuális térről alkotott megértését azáltal, hogy a nem RGB bemeneteket ehhez a térhez igazítja, és tartományspecifikus információkat, valamint Chain-of-Thought (gondolatmenet-lánc) érvelést injektál utasításként.

A Gemini 2.5 modellel demonstrálva a módszer erős Zero-Shot teljesítménynövekedést mutatott népszerű távérzékelési benchmarkokon a kutatók szerint. Ez a megközelítés költséghatékony alternatívát kínál a speciális multispektrális modellek képzésével szemben, és jelentősen bővítheti a meglévő LMM-ek alkalmazási körét.

A tanulmány az arXiv:2604.21032v1 azonosítóval érhető el.

tetszett a cikk? oszd meg →

Megosztás