11 VLM modellnél vizsgálták a forráskövetést — a szemantika a szintaktikát veri
A multimodális modellek képesek nyomon követni és kommunikálni, hogy egy információ melyik bemeneti forrásból származik — ez a képesség kulcsfontosságú a megbízható AI-rendszerekhez.

A multimodális modellek forrás-modalitás monitorozási képességét vizsgálták kutatók, amely azt jelenti, hogy az AI képes azonosítani az információ eredeti bemeneti forrását. Ezt a jelenséget a „kötési probléma” egy általánosabb esetének tekintik — írja az arXiv-on megjelent, előnyomtatott tanulmány.
A kutatók azt elemezték, hogy a modellek milyen mértékben használják ki a szintaktikai és szemantikai jeleket, amikor például egy felhasználói promptban szereplő „kép” szót a bemenetük konkrét vizuális elemeihez kötik. Tizenegy különböző látás-nyelvi modell (VLM) bevonásával végeztek kísérleteket, amelyek során cél-modalitású információ-visszakeresési feladatokat hajtottak végre.
A szemantika és a szintaktika csatája
Az eredmények szerint mind a szintaktikai, mind a szemantikai jelek fontos szerepet játszanak ebben a folyamatban. Ugyanakkor kiderült, hogy a szemantikai jelek gyakran felülmúlják a szintaktikaiakat, különösen akkor, ha a modalitások eloszlásukban erősen különböznek egymástól. Ez azt sugallja, hogy a modell a tartalom jelentésére jobban támaszkodik, mint a nyelvtani szerkezetre.
A felfedezés hatásai
A felfedezések jelentős hatással lehetnek a modellek robusztusságára, valamint az egyre inkább multimodális ügynöki rendszerek fejlesztésére. A pontos forráskövetés segíthet megelőzni a félreértéseket és javítani az AI megbízhatóságát a komplex feladatok során, például a robotvezérlésben vagy az összetett adatok értelmezésében. A kutatás 2024. március 15-én zárult le, és az eredmények az arXiv-on megjelent tanulmányban olvashatók.