Frissítve: 13 perce·Ma: 10
Kutatás
AI által generált szöveg

Új AI-keretrendszer oldja meg a multimodális modellek „percepciós törékenységét”

A Chain of Modality (CoM) nevű új keretrendszer dinamikusan hangolja össze a bemeneti topológiákat, ezzel kiküszöböli a statikus fúziós módszerek hibáit.

Új AI-keretrendszer oldja meg a multimodális modellek „percepciós törékenységét”
Fotó: Homa Appliances / Unsplash
Forrás: ArXiv CVSzerző: AI Forradalom szerk.
Megosztás

Kritikus teljesítményparadoxonra hívja fel a figyelmet egy friss kutatás: az Omni-modális Nagyméretű Nyelvi Modellek (Omni-MLLM) ígéretes, egységes integrációja ellenére az unimodális alapmodellek gyakran felülmúlják a közös multimodális következtetést — írja az ArXiv CV.

Ez a „percepciós törékenység” a jelenlegi modellek statikus fúziós topológiáira vezethető vissza. A kutatók két strukturális patológiát azonosítottak: a szekvenciális bemenetek pozicionális torzítását és az összefűzött formátumok igazítási csapdáit, amelyek feladattól függetlenül szisztematikusan torzítják a figyelmet.

A multimodális modellek új horizontja

A funkcionális merevség feloldására a Chain of Modality (CoM) nevű ügynöki keretrendszert javasolják. Ez a rendszer a multimodális fúziót passzív összefűzésről dinamikus vezénylésre alakítja át. A CoM adaptívan hangolja össze a bemeneti topológiákat, váltogatva a párhuzamos, szekvenciális és összefűzött útvonalak között a strukturális torzítások semlegesítésére.

A dinamikus fúzió áttörése

Az új megközelítés ígéretes megoldást kínál a multimodális AI-modellek régóta fennálló problémáira, és jelentősen javíthatja az Omni-MLLM-ek valós környezetben nyújtott teljesítményét, az ArXiv CV 2024. márciusi kiadásában fog megjelenni.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom