Az OpenAI 50%-os sikeraránnyal mérlegeli a biztonsági kockázatokat
Több mint 50%-os sikeraránnyal kell reprodukálhatónak lennie a harmadik féltől származó parancsok befecskendezésének és az adatok kiszivárogtatásának a Safety Bug Bounty programban.
OpenAI a március 25-i bejelentésében nyitott egy új Safety Bug Bounty programot, amelynek célja az AI‑térben felmerülő visszaélési és biztonsági kockázatok felismerése. A program részeként a kutatók olyan hibákat jelenthetnek, amelyek 50 % vagy annál magasabb sikerarányban képesek harmadik fél parancsait befecskendezni egy agentbe vagy adatokat szivárogtatni. A bejelentésekhez nem csak a reprodukálhatóság, hanem a potenciális, mérhető károkozás is szükséges.
Ez a kezdeményezés kiegészíti a már létező Security Bug Bounty programot, amely elsősorban a hagyományos biztonsági sebezhetőségekre fókuszál. A Safety program célja, hogy olyan eseteket is felfedezzön, amelyek nem minősülnek klasszikus biztonsági hibának, de komoly kockázatot jelentenek – például agentic termékek, mint a ChatGPT Agent, által végrehajtott disallowed vagy ártalmas cselekedetek.
A részletes kritériumok közé tartozik a harmadik fél prompt injection, a disallowed akciók skálázható végrehajtása, valamint a modellek által visszaadott OpenAI szellemi tulajdonhoz kapcsolódó információk. A program nem foglalkozik jailbreakekkel, de időszakosan egyedi, privát kampányokat futtat, például a GPT‑5 biorisk problémáira.
Az OpenAI a Bugcrowd platformján keresztül kezeli a bejelentéseket, és a Safety és Security Bug Bounty csapatok közösen döntik el, mely eseteket kell a két program közé sorolni. A kutatók jelentéseket a safety programban nyújthatnak be, és a cég elkötelezett a biztonságos AI ökoszisztéma fenntartása mellett.
A program bevezetése jelzi, hogy a vállalat komolyabban veszi a mesterséges intelligencia terjedő kihívásait. A jövőben a részletek és a jutalmak pontos részletei várhatóan a Bugcrowd oldalán jelentkeznek, de a cél egyértelmű: a felhasználók és a társadalom biztonságának növelése.