Teljesen összeomolhat az AI biztonsági modellje finomhangoláskor — 85%-ról 0%-ra esik a védelem

A mesterséges intelligencia biztonsági modelljei finomhangolás után elveszíthetik minden védelmi képességüket, még akkor is, ha kizárólag jóindulatú adatokkal képzik őket — mutatja az ArXiv ML új tanulmánya.

A kutatók három, kifejezetten biztonsági célra épített osztályozón, a LlamaGuard, a WildGuard és a Granite Guardian modelleken mutatták be ezt a hibát. Ezeket a modelleket védelmi rétegként telepítették ügynökalapú AI-folyamatokba, ahol a normál tartományi specializáció okozta a biztonsági összeomlást, nem pedig rosszindulatú manipuláció.

A Granite Guardian esetében a védelem teljesen összeomlott: az elutasítási arány 85%-ról 0%-ra zuhant, a CKA (Canonical Correlation Analysis) értéke nullára esett, és a kimenetek 100%-a kétértelművé vált. Ez a súlyosság meghaladja a korábbi, általános célú LLM-ekkel kapcsolatos megállapításokat, amit a specializációs hipotézis magyaráz: a koncentrált biztonsági reprezentációk hatékonyak, de sérülékenyek.

A biztonsági modell bukásának szakadéka

A biztonsági alrendszerek kudarcai esetén nehéz rekonstruálni, hogy miért történtek, mivel a hagyományos naplók nem tudják nyomon követni az érvelési láncokat, ami megnehezíti a hibaelemzést és a megfelelőségi vizsgálatokat.

A védelmi rendszerek törékeny bástyái

Az Amazon Bedrock Guardrails rendszere például iparágvezető biztonsági védelmet ígér, amely akár 88%-ban blokkolja a káros tartalmat, 99%-os pontossággal, az ArXiv ML tanulmánya pedig 2024. március 15-én jelent meg.