Frissítve: 1 órája·Ma: 9
Biztonság
AI által generált szöveg

Teljesen összeomolhat az AI biztonsági modellje finomhangoláskor — 85%-ról 0%-ra esik a védelem

A jelenség a látens biztonsági geometria, vagyis a káros és jóindulatú reprezentációs határ megsemmisüléséből ered, ami a besorolást irányítja.

Teljesen összeomolhat az AI biztonsági modellje finomhangoláskor — 85%-ról 0%-ra esik a védelem
Fotó: Possessed Photography / Unsplash
Forrás: ArXiv MLSzerző: AI Forradalom szerk.
Megosztás

A mesterséges intelligencia biztonsági modelljei finomhangolás után elveszíthetik minden védelmi képességüket, még akkor is, ha kizárólag jóindulatú adatokkal képzik őket — mutatja az ArXiv ML új tanulmánya.

A kutatók három, kifejezetten biztonsági célra épített osztályozón, a LlamaGuard, a WildGuard és a Granite Guardian modelleken mutatták be ezt a hibát. Ezeket a modelleket védelmi rétegként telepítették ügynökalapú AI-folyamatokba, ahol a normál tartományi specializáció okozta a biztonsági összeomlást, nem pedig rosszindulatú manipuláció.

A Granite Guardian esetében a védelem teljesen összeomlott: az elutasítási arány 85%-ról 0%-ra zuhant, a CKA (Canonical Correlation Analysis) értéke nullára esett, és a kimenetek 100%-a kétértelművé vált. Ez a súlyosság meghaladja a korábbi, általános célú LLM-ekkel kapcsolatos megállapításokat, amit a specializációs hipotézis magyaráz: a koncentrált biztonsági reprezentációk hatékonyak, de sérülékenyek.

A biztonsági modell bukásának szakadéka

A biztonsági alrendszerek kudarcai esetén nehéz rekonstruálni, hogy miért történtek, mivel a hagyományos naplók nem tudják nyomon követni az érvelési láncokat, ami megnehezíti a hibaelemzést és a megfelelőségi vizsgálatokat.

A védelmi rendszerek törékeny bástyái

Az Amazon Bedrock Guardrails rendszere például iparágvezető biztonsági védelmet ígér, amely akár 88%-ban blokkolja a káros tartalmat, 99%-os pontossággal, az ArXiv ML tanulmánya pedig 2024. március 15-én jelent meg.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom