Kutatás2026. ápr. 17.frissítve: 07:50

Új AI-keretrendszer oldja meg a multimodális modellek „percepciós törékenységét”

A Chain of Modality (CoM) nevű új keretrendszer dinamikusan hangolja össze a bemeneti topológiákat, ezzel kiküszöböli a statikus fúziós módszerek hibáit.

Fotó: Homa Appliances / Unsplash

forrás: ArXiv CV·AI Forradalom szerk.·2026. április 17.

Megosztás

Kritikus teljesítményparadoxonra hívja fel a figyelmet egy friss kutatás: az Omni-modális Nagyméretű Nyelvi Modellek (Omni-MLLM) ígéretes, egységes integrációja ellenére az unimodális alapmodellek gyakran felülmúlják a közös multimodális következtetést — írja az ArXiv CV.

Ez a „percepciós törékenység” a jelenlegi modellek statikus fúziós topológiáira vezethető vissza. A kutatók két strukturális patológiát azonosítottak: a szekvenciális bemenetek pozicionális torzítását és az összefűzött formátumok igazítási csapdáit, amelyek feladattól függetlenül szisztematikusan torzítják a figyelmet.

A multimodális modellek új horizontja

A funkcionális merevség feloldására a Chain of Modality (CoM) nevű ügynöki keretrendszert javasolják. Ez a rendszer a multimodális fúziót passzív összefűzésről dinamikus vezénylésre alakítja át. A CoM adaptívan hangolja össze a bemeneti topológiákat, váltogatva a párhuzamos, szekvenciális és összefűzött útvonalak között a strukturális torzítások semlegesítésére.

A dinamikus fúzió áttörése

Az új megközelítés ígéretes megoldást kínál a multimodális AI-modellek régóta fennálló problémáira, és jelentősen javíthatja az Omni-MLLM-ek valós környezetben nyújtott teljesítményét, az ArXiv CV 2024. márciusi kiadásában fog megjelenni.

tetszett a cikk? oszd meg →

Megosztás