A LongAV-Compass 284 tesztesetet tartalmaz az audio-vizuális generáció értékeléséhez
A perces AI-videók minőségét mostantól egységesen méri a LongAV-Compass, amely 284 tesztesetet tartalmaz a szövegből, képből és videóból generált tartalmakhoz.

A perces AI-videók minőségét mostantól egységesen méri a LongAV-Compass, amely 284 tesztesetet tartalmaz a szövegből, képből és videóból generált tartalmakhoz. A kutatók szerint a korábbi értékelési protokollok túlnyomórészt rövid, 5-10 másodperces klipekre korlátozódtak, és nem támogatták a különböző bemeneti modalitások — szöveg, kép, videó — egységes értékelését.
A teljesítményteszt 284 gondosan válogatott tesztesetet foglal magában, amelyek a szövegből-audio-videó (T2AV), képből-audio-videó (I2AV) és videóból-audio-videó (V2AV) generálási forgatókönyveket fedik le. Ezeket az alkalmazási forgatókönyvek és a generálási komplexitás alapján rendezték.
A szürkezóna feltérképezése
A rendszer a taxonómia-vezérelt építkezést egy egységes értékelési keretrendszerrel ötvözi, amely többek között MLLM-ek (Multimodal Large Language Models) segítségét is igénybe veszi az elemzéshez. A korábbi rendszerek főként a rövid formátumokra koncentráltak, így nem adtak elegendő információt arról, hogy a generált tartalom minősége hogyan változik a perces hosszúságú videók esetében.
A fejlesztés új dimenziói
A fejlesztők az új teljesítményteszt segítségével jobban megérthetik a modellek korlátait, és célzott fejlesztéseket végezhetnek az identitásmegtartás, a történetmesélés koherenciája és a hang-kép szinkronizáció terén. A LongAV-Compass így kulcsfontosságú eszköz lehet az audio-vizuális generálás következő generációjának kutatásában és fejlesztésében, a 2026 májusában publikált tesztesetek alapján.