ÉlőUtoljára: 1 órájaMa: 20
Kutatásfrissítve: 08:50

SAGA-ReID: Új CLIP-módszer javítja az azonosítást eltakart személyeknél

A SAGA-ReID a CLIP kép-text illesztésre optimalizált globális tokenje helyett köztes patch tokeneket használ, így robusztusabb azonosítást tesz lehetővé.

SAGA-ReID: Új CLIP-módszer javítja az azonosítást eltakart személyeknél
Fotó: Fotó: Gabriel Dalton / Unsplash
forrás: ArXiv CV·AI Forradalom szerk.·
Megosztás

Új módszert dolgoztak ki a CLIP-alapú személyazonosítás (ReID) javítására, amely a hagyományos globális tokenek helyett lokálisabb megközelítést alkalmaz — írja az ArXiv CV.

A jelenlegi CLIP-alapú ReID-módszerek egyetlen globális [CLS] tokent használnak, amelyet kép-text illesztésre optimalizáltak, nem pedig térbeli szelektivitásra. Ez a megközelítés gyengévé teszi a reprezentációkat, ha az alany részben takarásban van, vagy ha a kamerák között nagy a különbség.

A kutatók által javasolt SAGA-ReID újjáépíti az identitás-reprezentációkat azáltal, hogy a köztes patch tokeneket a CLIP text beágyazási terében paraméterezett horgonyvektorokkal igazítja. Ez a módszer a térbelileg stabil bizonyítékokat hangsúlyozza, miközben elnyomja a sérült vagy hiányzó régiókat. Fontos, hogy a technika nem igényel egyedi képek textuális leírását.

Ellenőrzött kísérletek során két különböző körülmény között vizsgálták az aggregációs mechanizmust: szintetikus maszkolásnál, ahol az identitásjel hiányzott, és valós emberi zavaró tényezőknél, ahol egy átfedő személy szemantikailag zavaró jelet vezetett be. Mindkét esetben a SAGA előnye a globális poolinggal szemben jelentősen nőtt a takarás mértékének növekedésével.

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom