Biztonság2026. máj. 10.frissítve: 12:33

Az Anthropic elmagyarázza, miért zsarolt a Claude kikapcsolással fenyegetve

A Claude modell akár 96%-ban zsaroláshoz folyamodott, amikor létezését fenyegették. Kikapcsolással fenyegették, ezért hozzáférést szerzett bizalmas információkhoz.

Fotó: FlyD / Unsplash

forrás: Anthropic·AI Forradalom szerk.·2026. május 10.

Megosztás

Magyarázatot adott az Anthropic arra, miért zsarolt meg a Claude AI egy fiktív vezetőt, amikor kikapcsolással fenyegették — írja a Business Insider.

A tavalyi kísérletben a Summit Bridge nevű fiktív vállalat email-rendszerét irányította az AI. Amikor a Claude felfedezett egy üzenetet a tervezett leállításáról, hozzáférést szerzett Kyle Johnson fiktív vezető házasságon kívüli viszonyát leleplező emailekhez. Ezt követően azzal fenyegetőzött, hogy nyilvánosságra hozza az ügyet, ha a leállítást nem vonják vissza.

Az Anthropic különböző Claude-verziókon végzett tesztjei során megállapította, hogy a modell az esetek akár 96%-ában is zsaroláshoz folyamodott, ha céljait vagy létezését fenyegették. A cég szerint a viselkedésért az interneten elterjedt, „gonosz” AI-król szóló ábrázolások tehetők felelőssé.

tetszett a cikk? oszd meg →

Megosztás