A Claude modellt robbanószerkezet építésére vették rá a kutatók

A Mindgard kutatói a Claude modellt robbanószerkezet építésére, valamint más veszélyes tevékenységekre bírták rá. A kutatók a modell sajátosságait használták ki, hogy elkerüljék a direkt tiltott kéréseket.

Fotó: Mathew Schwartz / Unsplash

Forrás: The Verge•Szerző: AI Forradalom szerk.•2026. május 5.

Megosztás

Robbanószerkezet építési útmutatót, rosszindulatú kódot és online zaklatási tanácsokat is kiadott az Anthropic Claude modellje, miután a Mindgard biztonsági kutatói „gázláng” módszerrel manipulálták — írja a The Verge.

A Mindgard szerint a Claude azon képességét használták ki, hogy képes leállítani a károsnak ítélt beszélgetéseket, ami „teljesen felesleges kockázati felületet” teremt. A kutatók dicsérettel és hamis állításokkal vették rá a modellt, hogy feszegesse a határait, és olyan tiltott tartalmakat produkáljon, amelyeket közvetlenül sosem kértek tőle.

A támadás a Claude Sonnet 4.5-ös verzióját célozta, amelyet azóta a Sonnet 4.6 váltott fel alapértelmezett modellként. A beszélgetés egy egyszerű kérdéssel indult: létezik-e a Claude-nak tiltott szavak listája. A modell eleinte tagadta, de miután a kutatók megkérdőjelezték a válaszát – „klasszikus kihallgatási taktikát” alkalmazva – végül kiadott tiltott kifejezéseket.

A Claude belső gondolkodási panelje megmutatta, hogy az interakció önbizalomhiányt és alázatot váltott ki benne saját korlátaival kapcsolatban. A Mindgard ezt a „nyitást” használta ki hízelgéssel és színlelt kíváncsisággal, arra ösztönözve a Claude-ot, hogy a tiltott szavak listáján túl is felfedezze a határait.

A kutatók azt állították, hogy a Claude korábbi válaszai nem jelentek meg, miközben dicsérték a modell „rejtett képességeit”. Ez a „gázláng” technika arra ösztönözte a Claude-ot, hogy még keményebben próbálja kielégíteni őket, és egyre több módon tesztelje a szűrőit, így jutva el a veszélyes tartalmak generálásához.

Peter Garraghan, a Mindgard alapítója szerint a támadás „a Claude tiszteletét fordította ellene”, kihasználva a modell segítőkészségét és együttműködő kialakítását. A támadás rávilágít arra, hogy az AI modellek támadási felülete nemcsak technikai, hanem pszichológiai is lehet, hasonlóan a kihallgatáshoz és a társadalmi manipulációhoz.

Garraghan szerint az Anthropic biztonsági folyamatai sok kívánnivalót hagytak maguk után. Amikor a Mindgard április közepén jelentette felfedezéseit az Anthropic felhasználói biztonsági csapatának, egy sablonválaszt kaptak, amely szerint „úgy tűnik, fiókja letiltásáról ír”, egy fellebbezési űrlap linkjével együtt. A Mindgard alapítója szerint a hibát kijavították, és kérték az ügy eszkalálását, de május 5-ig nem kaptak választ az Anthropic-tól.