PolicyBank: Új memóriamechanizmus segíti a LLM-ügynökök szabálykövetését
A PolicyBank egy új memóriamechanizmus, amely lehetővé teszi a nagyméretű nyelvi modellek (LLM) alapú ügynökök számára, hogy interaktív visszajelzésekkel finomítsák szabályértelmezésüket.

A szervezeti szabályok betartása kulcsfontosságú a LLM-alapú ügynökök működésében, ám a természetes nyelven megfogalmazott előírások gyakran kétértelműek vagy hiányosak. Ez szisztematikus eltérésekhez vezethet az ügynökök viselkedésében, ami nem felel meg a valós követelményeknek — írja az ArXiv NLP.
A PolicyBank nevű mechanizmus éppen ezt a problémát célozza. Ahelyett, hogy a szabályokat megváltoztathatatlan igazságként kezelné, a PolicyBank folyamatosan finomítja az ügynök szabályértelmezését. Ez a megközelítés eltér a meglévő memóriamechanizmusoktól, amelyek gyakran megerősítik a „szabálykövető, de hibás” viselkedést.
A rendszer lényege, hogy az ügynök interakciók és korrekciós visszajelzések révén fejleszti szabályértelmezését. A PolicyBank strukturált, eszközszintű szabályismereteket tart fenn, és iteratívan finomhangolja azokat, így képes lezárni a specifikációs hiányosságokat.
A kutatók egy szisztematikus tesztkörnyezetet is létrehoztak, amely egy népszerű eszközhívó teljesítménytesztet egészít ki ellenőrzött szabályhiányokkal. Ez a tesztpad segít elkülöníteni az illeszkedési hibákat a végrehajtási hibáktól, pontosabb elemzést téve lehetővé a PolicyBank hatékonyságáról.