Új VANGUARD keretrendszerrel javul a videós anomáliaészlelés pontossága

Új keretrendszert mutatott be az ArXiv CV, amely VANGUARD néven egyesíti az anomáliaosztályozást, a térbeli lokalizációt és az okfejtést egyetlen multimodális nagyméretű nyelvi modellen (VLM) belül — írja a tanulmány.

A videós anomáliaészlelést (VAD) eddig jellemzően bináris osztályozásként vagy outlier-detekcióként kezelték, ami nem nyújtott értelmezhető magyarázatot, sem pontos térbeli azonosítást az anomális eseményekről. A VLM-ek gazdag jelenetmegértést kínálnak, de a megbízható térbeli lokalizációval küzdenek, gyakran hallucinált vagy geometriailag érvénytelen határoló dobozokat generálva.

A VANGUARD egy háromlépcsős tantervet vezet be, amely fokozatosan rétegzi a képzési célokat: először egy osztályozó bemelegítés történik a lefagyasztott alapmodell funkcióin, majd LoRA-adaptált térbeli lokalizáció következik, végül pedig a lánc-gondolkodás (chain-of-thought) generálása. A VAD teljesítménytesztek ritka annotációinak leküzdésére a rendszer egy tanár-diák annotációs folyamatot alkalmaz.

A LLaMA modelleket is multimodálissá tették már, hogy kép- és videóbemeneteket is kezelhessenek, ami alapot adhat a VANGUARD-hoz hasonló fejlesztéseknek. A korábbi módszerek, mint a tudás- és lekérdezés-alapú megközelítések, külső tudásforrásokkal próbálták a modellek válaszait tényekhez kötni, például útvonal-alapozással. A VANGUARD célja, hogy a térbeli lokalizációt is megbízhatóbbá tegye a videós anomáliaészlelésben.