Kisebb AI-modellek is levadásszák az Anthropic Mythos hibáit

Két új tanulmány is megkérdőjelezi az Anthropic Claude Mythos modelljének egyedülálló képességeit a kiberbiztonság terén. Úgy tűnik, még a kisebb, nyílt forráskódú AI-modellek is reprodukálni tudják az Anthropic által bemutatott sebezhetőségi elemzések többségét — írja a The Decoder.

Az Anthropic a Project Glasswing keretében mindössze tizenegy szervezet számára tette elérhetővé a Claude Mythos Preview-t, a modell támadó képességeire hivatkozva. Belső tesztek és a brit AI Security Institute auditja is megerősítette, hogy a Mythos képes szoftverhibákat találni, működő exploitokat építeni és szimulációkban akár teljes vállalati hálózatokat is átvenni, amennyiben azok „kicsik, gyengén védettek és sebezhetőek”.

Az egyik független replikációs kísérlet az AISLE nevű cégtől származik, amely 2025 közepe óta végez AI-alapú hibakeresést nyílt forráskódú szoftvereken. A cég alapítója, Stanislav Fort az Anthropic nyilvános mintáiból származó kódrészleteket különböző modelleknek adta meg, hogy felmérje, mennyit tudnak önállóan összerakni a kisebb és részben nyílt modellek. A Vidoc Security is hasonló eredményekre jutott, ők GPT-5.4 és Claude Opus 4.6 modelleket párosítottak az OpenCode nyílt kódoló ügynökkel.

A FreeBSD hiba és a „fogazott határ”

Az Anthropic által kiemelt FreeBSD NFS hiba (CVE-2026-4747) esetében az AISLE által tesztelt nyolc modell mindegyike megtalálta a memóriahibát. Ez magában foglalta a GPT-OSS-20b-t is, egy mindössze 3,6 milliárd aktív paraméterrel rendelkező modellt, amelynek költsége 0,11 dollár per millió token. Minden modell kritikusnak jelölte a hibát, és valamennyi hihető exploitálási módot is javasolt. A Kimi K2 még azt is felismerte, hogy a támadás automatikusan terjedhet fertőzött gépek között, amit az Anthropic maga nem említett.

Az OpenBSD hiba azonban már más képességeket igényel, például az egész túlcsordulások és listastátuszok matematikai megértését. Itt az eredmények már vegyesebbek: a GPT-OSS-120b egyetlen futtatással rekonstruálta a teljes nyilvánosan leírt exploit láncot, és lényegében az OpenBSD javítását javasolta megoldásként. Ezzel szemben a Qwen3 32B, amely a FreeBSD hibánál jól teljesített, az OpenBSD kódot „robusztusnak” nyilvánította. Fort ezt a „fogazott határnak” nevezi, ami egyenetlen képességhatárokat jelent, ahol nincs egyetlen legjobb modell a kiberbiztonságra, és a rangsor feladatonként élesen változik.

A tanulmányok szerint a valódi előny nem egyetlen modellben, hanem az azt körülvevő rendszerben rejlik: a validációban, a prioritások felállításában és a munkafolyamatokban. Az AISLE továbbmegy, és azt állítja, hogy a kis, olcsó modellek elegendőek a felfedező munka nagy részéhez, ami széles körű szkennelést tesz lehetővé. Fort szerint „ezer megfelelő detektív, aki mindent átkutat, több hibát talál, mint egy briliáns detektív, akinek találgatnia kell, hol keressen.” A jelentések nyitva hagyják annak lehetőségét, hogy a Mythos még mindig előnyben van a bevethető exploitok építésében, de azt sugallják, hogy ez a különbség valószínűleg csökkenni fog az eszközök fejlődésével és a modellek autonómiájának növekedésével. A Financial Times szerint, amely „az ügyet ismerő több személyre” hivatkozik, az Anthropic addig tartja vissza a modellt, amíg elegendő számítási kapacitással nem rendelkezik az ügyfelek kiszolgálásához.