MR2-ByteTrack: új videóobjektum-észlelési módszer CNN és Transformer alapokon

Új videóobjektum-detekciós (VOD) módszert mutattak be MR2-ByteTrack néven, amely kifejezetten mikrokontroller-alapú (MCU) beágyazott látórendszerekhez készült — írja az ArXiv CV-n megjelent tanulmány.

A modern okos látóérzékelőknek helyi intelligenciára van szükségük a videófolyamok feldolgozásához, mivel a felhőalapú számítás gyakran nem praktikus a sávszélesség, a késleltetés és az adatvédelmi korlátok miatt. Az ilyen szenzorrendszerek azonban jellemzően ultraalacsony fogyasztású mikrokontrollereket használnak, amelyek korlátozott memóriával és számítási kapacitással rendelkeznek, így a hagyományos VOD-módszerek, amelyek funkciótárolást vagy több képkocka pufferelését igénylik, kivitelezhetetlenek.

A látás határai

A MR2-ByteTrack a számítási költségeket úgy csökkenti, hogy váltogatja a teljes és az alacsony felbontású következtetést. A detektálásokat a képkockákon keresztül a ByteTrack algoritmussal kapcsolja össze, a hibás osztályozásokat pedig a Rescore algoritmussal korrigálja. Ez az algoritmus valószínűségi unió szabályokat alkalmaz a detektálási konfidencia pontszámok aggregálására a képkockákon keresztül.

Vizuális áttörés

A megközelítést CNN-alapú detektorokhoz és transzformer-alapú architektúrákhoz egyaránt alkalmazták. A kutatók szerint a MR2-ByteTrack megoldást kínál a beágyazott látórendszerek kihívásaira, lehetővé téve a valós idejű videóobjektum-detekciót korlátozott erőforrásokon. A tanulmány 2605.15423v1 számon érhető el az ArXiv preprint szerverén, 2023. május 18-án.