Kutatás2026. máj. 22.frissítve: 20:30

Új benchmarkkal méri az Apple a streamelt vizuális asszisztensek valós idejű teljesítményét

Az új értékelőrendszer a proaktivitást és a konzisztenciát is figyeli, szemben a korábbi, offline mérésekre fókuszáló módszerekkel.

Fotó: Tim Witzdam / Unsplash

forrás: Apple ML·AI Forradalom szerk.·2026. május 22.

Megosztás

Valós idejű vizuális streaming asszisztens modellek (VLM) értékelésére fejlesztett ki új keretrendszert az Apple — írja az Apple ML kutatási részlege. A VSAS-Bench nevű teljesítményteszt a modellek proaktivitását és konzisztenciáját is méri, ami kulcsfontosságú a folyamatosan érkező képkockák feldolgozásánál.

A meglévő VLM-keretrendszerek főként offline környezetben vizsgálták a modelleket, ám a streaming VLM-ek teljesítményét olyan további metrikák is befolyásolják, mint a válaszadás időszerűsége (proaktivitás) és a válaszok időbeli robusztussága (konzisztencia). A VSAS-Bench több mint 18 000 időben sűrű annotációt tartalmaz különböző bemeneti tartományokból és feladattípusokból, szemben a korábbi, egyfordulós kérdés-válasz alapú benchmarkokkal.

A kutatók szabványosított szinkron és aszinkron értékelési protokollokat vezettek be, valamint olyan metrikákat, amelyek a streaming VLM-ek különálló képességeit mérik. Ezzel a keretrendszerrel nagyszabású értékeléseket végeztek a legújabb videó- és streaming VLM-eken, elemezve a pontosság és a késleltetés közötti kompromisszumot olyan kulcsfontosságú tervezési tényezők mentén, mint a memóriapuffer hossza, a memória-hozzáférési szabályzat és a bemeneti felbontás.

A vizsgálatok során empirikusan kimutatták, hogy a hagyományos VLM-ek további betanítás nélkül is adaptálhatók streaming környezetekhez. Ezek az adaptált modellek felülmúlják a legújabb streaming VLM-eket; például a Qwen3-VL-4B modell 3%-kal jobban teljesít az aszinkron protokoll szerint, mint a Dispider, amely a teljesítményteszt legjobb streaming VLM-je volt.

tetszett a cikk? oszd meg →

Megosztás