AI-ügynököket törtek fel prompt injekcióval: Anthropic, Google, Microsoft is fizetett

A feltört rendszerek között az Anthropic Claude Code Security Review, a Google Gemini CLI Action és a GitHub Copilot Agent is szerepelt, amelyek mindegyike GitHub Actions integrációkon keresztül vált sebezhetővé.

Fotó: Bernd 📷 Dittrich / Unsplash

Forrás: TNW•Szerző: AI Forradalom szerk.•2026. április 15.

Megosztás

Prompt injekciós támadásokkal törte fel az Anthropic, a Google és a Microsoft AI-ügynökeit Aonan Guan biztonsági kutató, aki mindhárom esetben API-kulcsokat és tokeneket lopott el a GitHub Actions integrációkon keresztül — írja a TNW.

A vállalatok csendben fizettek hibavadász jutalmat: az Anthropic 100 dollárt, a GitHub 500 dollárt, a Google pedig egy meg nem nevezett összeget utalt. Egyik cég sem tett közzé nyilvános figyelmeztetést vagy rendelt hozzá CVE-azonosítót, így a régebbi verziókat használók nem értesültek a kockázatról.

Az árnyékban megbújó fenyegetés

A sebezhetőségek több hónapon keresztül derültek ki, és olyan AI-eszközöket érintettek, amelyek GitHub-adatokat olvasnak be, mint például a pull request címek vagy issue-leírások, majd ezeket feladatkontextusként dolgozzák fel. A támadások alapja az indirekt prompt injekció volt.

A kutató nem közvetlenül az AI-modellt támadta, hanem rosszindulatú utasításokat ágyazott be olyan helyekre, amelyeket az ügynökök megbízhatónak tekintettek: PR-címekbe, issue-leírásokba és kommentekbe. Amikor az ügynök beolvasta ezt a tartalmat a munkafolyamata részeként, az injektált parancsokat legitim utasításként hajtotta végre.

A biztonsági réseken át

Az Anthropic Claude Code Security Review esetében, amely a pull requesteket vizsgálja sebezhetőségek szempontjából, Guan egy prompt injekciós kódot tartalmazó PR-címet hozott létre. A Claude végrehajtotta a beágyazott parancsokat, és a kiszivárgott hitelesítő adatokkal együtt a JSON válaszában tette közzé az eredményt, amely így bárki számára olvashatóvá vált egy PR-kommentben. A Gemini elleni támadás hasonló mintát követett: Guan egy hamis „megbízható tartalom szekciót” injektált egy GitHub issue-ba, felülírva a Gemini biztonsági utasításait.

A probléma gyökere abban rejlik, hogy a nagyméretű nyelvi modellek nem tudják megbízhatóan elkülöníteni az adatokat az utasításoktól. A Zenity Labs kutatása szerint a legtöbb ügynöképítő keretrendszer, beleértve az OpenAI, a Google és a Microsoft megoldásait is, nem rendelkezik megfelelő védelmi mechanizmusokkal. A GitHub 2024. március 10-én zárta le a hibajavítást.