SAGA-ReID: Új CLIP-módszer javítja az azonosítást eltakart személyeknél
A SAGA-ReID a CLIP kép-text illesztésre optimalizált globális tokenje helyett köztes patch tokeneket használ, így robusztusabb azonosítást tesz lehetővé.

Új módszert dolgoztak ki a CLIP-alapú személyazonosítás (ReID) javítására, amely a hagyományos globális tokenek helyett lokálisabb megközelítést alkalmaz — írja az ArXiv CV.
A jelenlegi CLIP-alapú ReID-módszerek egyetlen globális [CLS] tokent használnak, amelyet kép-text illesztésre optimalizáltak, nem pedig térbeli szelektivitásra. Ez a megközelítés gyengévé teszi a reprezentációkat, ha az alany részben takarásban van, vagy ha a kamerák között nagy a különbség.
A kutatók által javasolt SAGA-ReID újjáépíti az identitás-reprezentációkat azáltal, hogy a köztes patch tokeneket a CLIP text beágyazási terében paraméterezett horgonyvektorokkal igazítja. Ez a módszer a térbelileg stabil bizonyítékokat hangsúlyozza, miközben elnyomja a sérült vagy hiányzó régiókat. Fontos, hogy a technika nem igényel egyedi képek textuális leírását.
Ellenőrzött kísérletek során két különböző körülmény között vizsgálták az aggregációs mechanizmust: szintetikus maszkolásnál, ahol az identitásjel hiányzott, és valós emberi zavaró tényezőknél, ahol egy átfedő személy szemantikailag zavaró jelet vezetett be. Mindkét esetben a SAGA előnye a globális poolinggal szemben jelentősen nőtt a takarás mértékének növekedésével.