Kutatás2026. máj. 14.frissítve: 07:50

Új AI-módszer a hosszú videók megértésére: a VideoSEAL szétválasztja a tervezést és az ellenőrzést

A jelenlegi hosszú videókat elemző AI-ügynökök gyakran adnak helyesnek tűnő válaszokat, amelyeket azonban nem támaszt alá a felhasznált vizuális bizonyíték.

Fotó: Techivation / Unsplash

forrás: ArXiv CV·AI Forradalom szerk.·2026. május 14.

Megosztás

Hosszú videók elemzésekor az AI-modelleknek nehézséget okoz a ritka, időben szétszórt vizuális bizonyítékok megtalálása a nagymértékben redundáns tartalomban. Bár a jelenlegi többmodális nagy nyelvi modellek (MLLM) jól teljesítenek rövid videókon, a hosszú videók esetében a távoli keresés és ellenőrzés gyakran többlépcsős, ügynök-alapú interakciót igényel — írja az ArXiv-en megjelent kutatás.

A kutatók szerint az úgynevezett „evidence misalignment” jelenség azt jelenti, hogy az ügynökök helyes válaszokat adnak, amelyek azonban nem támasztják alá a ténylegesen visszakeresett vagy ellenőrzött bizonyítékok. Ennek diagnosztizálására két új mérőszámot vezettek be: a temporális és a szemantikai megalapozottságot.

A hosszú távú tervezés és az ellenőrzés szétválasztása

Ezekkel a diagnosztikákkal két fő nyomásgyakorló tényezőt azonosítottak, amelyek felerősítik az eltolódást: a prompt-nyomás az inferencia során a megosztott kontextus telítődéséből, valamint a jutalom-nyomás a betanítás során az eredmény-központú optimalizálásból. Ezek a megállapítások strukturális gyökérokra mutatnak: a kapcsolt ügynökparadigma összemossa a hosszú távú tervezést a válaszadási jogosultsággal.

A VideoSEAL módszer

A probléma megoldására a kutatók a VideoSEAL nevű új, szétválasztott tervező-ellenőr módszert javasolják. Ez a megközelítés különválasztja a hosszú távú tervezést és a válaszadási jogosultságot, így hatékonyabban kezeli a hosszú videók megértésének kihívásait. A modellről további részletek a 2605.12571v1 számú ArXiv preprintben olvashatók, amely 2024. március 15-én jelent meg.

tetszett a cikk? oszd meg →

Megosztás