Új AI-módszer a hosszú videók megértésére: a VideoSEAL szétválasztja a tervezést és az ellenőrzést
A jelenlegi hosszú videókat elemző AI-ügynökök gyakran adnak helyesnek tűnő válaszokat, amelyeket azonban nem támaszt alá a felhasznált vizuális bizonyíték.

Hosszú videók elemzésekor az AI-modelleknek nehézséget okoz a ritka, időben szétszórt vizuális bizonyítékok megtalálása a nagymértékben redundáns tartalomban. Bár a jelenlegi többmodális nagy nyelvi modellek (MLLM) jól teljesítenek rövid videókon, a hosszú videók esetében a távoli keresés és ellenőrzés gyakran többlépcsős, ügynök-alapú interakciót igényel — írja az ArXiv-en megjelent kutatás.
A kutatók szerint az úgynevezett „evidence misalignment” jelenség azt jelenti, hogy az ügynökök helyes válaszokat adnak, amelyek azonban nem támasztják alá a ténylegesen visszakeresett vagy ellenőrzött bizonyítékok. Ennek diagnosztizálására két új mérőszámot vezettek be: a temporális és a szemantikai megalapozottságot.
A hosszú távú tervezés és az ellenőrzés szétválasztása
Ezekkel a diagnosztikákkal két fő nyomásgyakorló tényezőt azonosítottak, amelyek felerősítik az eltolódást: a prompt-nyomás az inferencia során a megosztott kontextus telítődéséből, valamint a jutalom-nyomás a betanítás során az eredmény-központú optimalizálásból. Ezek a megállapítások strukturális gyökérokra mutatnak: a kapcsolt ügynökparadigma összemossa a hosszú távú tervezést a válaszadási jogosultsággal.
A VideoSEAL módszer
A probléma megoldására a kutatók a VideoSEAL nevű új, szétválasztott tervező-ellenőr módszert javasolják. Ez a megközelítés különválasztja a hosszú távú tervezést és a válaszadási jogosultságot, így hatékonyabban kezeli a hosszú videók megértésének kihívásait. A modellről további részletek a 2605.12571v1 számú ArXiv preprintben olvashatók, amely 2024. március 15-én jelent meg.