PolicyBank: Új memóriamechanizmus segíti a LLM-ügynökök szabálykövetését

A PolicyBank egy új memóriamechanizmus, amely lehetővé teszi a nagyméretű nyelvi modellek (LLM) alapú ügynökök számára, hogy interaktív visszajelzésekkel finomítsák szabályértelmezésüket.

Fotó: DANIEL HAY / Unsplash

Forrás: ArXiv NLP•Szerző: AI Forradalom szerk.•2026. április 20.

Megosztás

A szervezeti szabályok betartása kulcsfontosságú a LLM-alapú ügynökök működésében, ám a természetes nyelven megfogalmazott előírások gyakran kétértelműek vagy hiányosak. Ez szisztematikus eltérésekhez vezethet az ügynökök viselkedésében, ami nem felel meg a valós követelményeknek — írja az ArXiv NLP.

A PolicyBank nevű mechanizmus éppen ezt a problémát célozza. Ahelyett, hogy a szabályokat megváltoztathatatlan igazságként kezelné, a PolicyBank folyamatosan finomítja az ügynök szabályértelmezését. Ez a megközelítés eltér a meglévő memóriamechanizmusoktól, amelyek gyakran megerősítik a „szabálykövető, de hibás” viselkedést.

A rendszer lényege, hogy az ügynök interakciók és korrekciós visszajelzések révén fejleszti szabályértelmezését. A PolicyBank strukturált, eszközszintű szabályismereteket tart fenn, és iteratívan finomhangolja azokat, így képes lezárni a specifikációs hiányosságokat.

A kutatók egy szisztematikus tesztkörnyezetet is létrehoztak, amely egy népszerű eszközhívó teljesítménytesztet egészít ki ellenőrzött szabályhiányokkal. Ez a tesztpad segít elkülöníteni az illeszkedési hibákat a végrehajtási hibáktól, pontosabb elemzést téve lehetővé a PolicyBank hatékonyságáról.