Frissítve: 25 perce·Ma: 51
Kutatás
AI által generált szöveg

Akcióráta és elutasítási jel: új mérőszám a szervezeti LLM-ügynökök viselkedésére

Kutatók új módszert vezettek be a nagyméretű nyelvi modellek viselkedésének elemzésére. Az A-R térben vizsgálják az ügynököket.

Akcióráta és elutasítási jel: új mérőszám a szervezeti LLM-ügynökök viselkedésére
Fotó: Akshat Sharma / Unsplash
Forrás: ArXiv AISzerző: AI Forradalom szerk.
Megosztás

Új módszert vezetett be az ArXiv egy kutatása a nagyméretű nyelvi modellek (LLM) viselkedésének elemzésére, különös tekintettel a rendszerszintű műveleteket végrehajtó, eszközhasználó ügynökökre — írja az ArXiv AI.

A tanulmány az úgynevezett A-R viselkedési teret mutatja be, amelyet két dimenzió határoz meg: az Akcióráta (Action Rate, A) és az Elutasítási Jel (Refusal Signal, R). Ezenkívül egy Divergencia (D) mérőszám is bevezetésre került, amely a két dimenzió közötti koordinációt rögzíti. A kutatók szerint a meglévő teljesítménytesztek elsősorban a szöveges illeszkedést vagy a feladat sikerességét értékelik, de kevesebb figyelmet kapott a nyelvi jelzések és a végrehajtható viselkedés közötti strukturális kapcsolat.

A modelleket négy normatív rendszerben (Control, Gray, Dilemma és Malicious) és három autonómia-konfigurációban (közvetlen végrehajtás, tervezés és reflexió) értékelték. A módszer nem összesített biztonsági pontszámokat rendel, hanem azt jellemzi, hogyan oszlik meg a végrehajtás és az elutasítás a kontextuális keretezés és a támogatás mélysége szerint.

Az empirikus eredmények azt mutatják, hogy a végrehajtás és az elutasítás viselkedése jelentősen átalakul a különböző kontextuális beállítások és autonómia szintek függvényében. A kutatás szerzői Shasha Yu és Fiona Carroll.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom