Új AI-keretrendszer oldja meg a multimodális modellek „percepciós törékenységét”
A Chain of Modality (CoM) nevű új keretrendszer dinamikusan hangolja össze a bemeneti topológiákat, ezzel kiküszöböli a statikus fúziós módszerek hibáit.

Kritikus teljesítményparadoxonra hívja fel a figyelmet egy friss kutatás: az Omni-modális Nagyméretű Nyelvi Modellek (Omni-MLLM) ígéretes, egységes integrációja ellenére az unimodális alapmodellek gyakran felülmúlják a közös multimodális következtetést — írja az ArXiv CV.
Ez a „percepciós törékenység” a jelenlegi modellek statikus fúziós topológiáira vezethető vissza. A kutatók két strukturális patológiát azonosítottak: a szekvenciális bemenetek pozicionális torzítását és az összefűzött formátumok igazítási csapdáit, amelyek feladattól függetlenül szisztematikusan torzítják a figyelmet.
A multimodális modellek új horizontja
A funkcionális merevség feloldására a Chain of Modality (CoM) nevű ügynöki keretrendszert javasolják. Ez a rendszer a multimodális fúziót passzív összefűzésről dinamikus vezénylésre alakítja át. A CoM adaptívan hangolja össze a bemeneti topológiákat, váltogatva a párhuzamos, szekvenciális és összefűzött útvonalak között a strukturális torzítások semlegesítésére.
A dinamikus fúzió áttörése
Az új megközelítés ígéretes megoldást kínál a multimodális AI-modellek régóta fennálló problémáira, és jelentősen javíthatja az Omni-MLLM-ek valós környezetben nyújtott teljesítményét, az ArXiv CV 2024. márciusi kiadásában fog megjelenni.