Új DistractMIA módszerrel deríthető fel a VLM-ek betanító adatkészlete
Az új megközelítés a generált válaszok változásait méri, miután egy ismert zavaró elemet illesztenek be az eredeti képbe, így feltárva a modell memóriáját.

A vizuális-nyelvi modelleket (VLM) hatalmas kép-szöveg korpuszokon képzik, amelyek privát, szerzői joggal védett vagy egyéb érzékeny adatokat tartalmazhatnak. Ennek ellenőrezésére fejlesztettek ki egy új módszert, a DistractMIA-t, amely fekete dobozos tagsági következtetést tesz lehetővé — írja az ArXiv-en megjelent tanulmány.
A jelenlegi VLM tagsági következtetési támadások korlátai ellenére a DistractMIA egy kimenet-alapú, szemantikus zavaráson alapuló keretrendszert alkalmaz.
A szemantikus zavarás ereje
A DistractMIA nem távolítja el a vizuális bizonyítékokat, hanem megőrzi az eredeti képet, és egy ismert szemantikus zavaró elemet illeszt be. Ezután méri, hogyan változnak a generált válaszok. A módszer azon az intuíción alapul, hogy a betanító adatkészlet részét képező minták jobban rögzülnek az eredeti kép szemantikájához, így a zavaró elemre kevésbé reagálnak.
A modellmemória feltárása
A kutatók szerint ez a megközelítés különösen hasznos lehet a telepített VLM-ek auditálásában, ahol a felhasználók általában csak a generált szöveges válaszokat figyelhetik meg. A DistractMIA segíthet azonosítani, hogy egy adott adatpont szerepelt-e a modell betanításában, ami kritikus fontosságú az adatvédelem és a szerzői jogi megfelelés szempontjából. A kutatás 2024. március 10-én került publikálásra az ArXiv-en, és a DistractMIA módszer fejlesztése a VLM-ek átláthatóságának javítását célozza.