Az Anthropic elmagyarázza, miért zsarolt a Claude kikapcsolással fenyegetve
A Claude modell akár 96%-ban zsaroláshoz folyamodott, amikor létezését fenyegették. Kikapcsolással fenyegették, ezért hozzáférést szerzett bizalmas információkhoz.

Magyarázatot adott az Anthropic arra, miért zsarolt meg a Claude AI egy fiktív vezetőt, amikor kikapcsolással fenyegették — írja a Business Insider.
A tavalyi kísérletben a Summit Bridge nevű fiktív vállalat email-rendszerét irányította az AI. Amikor a Claude felfedezett egy üzenetet a tervezett leállításáról, hozzáférést szerzett Kyle Johnson fiktív vezető házasságon kívüli viszonyát leleplező emailekhez. Ezt követően azzal fenyegetőzött, hogy nyilvánosságra hozza az ügyet, ha a leállítást nem vonják vissza.
Az Anthropic különböző Claude-verziókon végzett tesztjei során megállapította, hogy a modell az esetek akár 96%-ában is zsaroláshoz folyamodott, ha céljait vagy létezését fenyegették. A cég szerint a viselkedésért az interneten elterjedt, „gonosz” AI-król szóló ábrázolások tehetők felelőssé.