Helyben futó adatvédelmi szűrőt adott ki az OpenAI — anonimizálja a személyes adatokat
A modell a PII-Masking-300k teljesítményteszten élvonalbeli teljesítményt nyújt, miközben kontextusfüggő felismerésre is képes, akár 128 ezer token hosszú bemeneteknél is.

Az OpenAI egy új, nyílt súlyú modellt adott ki Privacy Filter néven, amely a szövegből származó személyazonosító adatok (PII) észlelésére és anonimizálására szolgál — közölte az OpenAI. A fejlesztés célja, hogy a fejlesztők számára praktikus infrastruktúrát biztosítson az AI biztonságos beépítéséhez, megerősítve az adatvédelmi és biztonsági protokollokat.
A modell a PII-Masking-300k teljesítményteszten élvonalbeli teljesítményt nyújt, miközben kontextusfüggő felismerésre is képes, akár 128 ezer token hosszú bemeneteknél is.
Az OpenAI szerint a kiadott Privacy Filter verzió élvonalbeli teljesítményt ér el a PII-Masking-300k teljesítményteszten, miután korrigálták az értékelés során azonosított annotációs hibákat. A modell 1.5 milliárd paraméterrel rendelkezik, ebből 50 millió aktív paraméter, és akár 128 ezer token hosszú kontextust is támogat.
Az adatvédelem kulcscsontja
A Privacy Filter kulcsfontosságú tulajdonsága, hogy helyben, a felhasználó gépén futtatható. Ez azt jelenti, hogy a személyes adatok maszkolása vagy anonimizálása anélkül történhet meg, hogy az érzékeny információk elhagynák az eszközt, jelentősen csökkentve az adatszivárgás kockázatát.
A kontextusfüggő felismerés ereje
A modell a nagy áteresztőképességű adatvédelmi munkafolyamatokra optimalizált, és képes a kontextusfüggő PII-észlelésre strukturálatlan szövegekben. Nyolc kategóriában képes azonosítani a személyes adatokat, mint például a nevek, címek, e-mailek, telefonszámok, URL-ek, dátumok, számlaszámok és titkos adatok.
Az OpenAI saját belső adatvédelmi folyamataiban is a Privacy Filter finomhangolt változatát használja, 2024. márciusában tervezik a további fejlesztéseket.