Új PIVOT módszerrel javul a LLM-ügynökök tervezési és végrehajtási pontossága
A PIVOT egy önszabályozó keretrendszer, amely a tervek és a végrehajtás közötti eltéréseket orvosolja, ezzel jelentősen növeli a LLM-alapú ügynökök megbízhatóságát.

Gyakran fordul elő, hogy a nagyméretű nyelvi modelleken (LLM) alapuló ügynökök koherensnek tűnő terveket generálnak, amelyek a végrehajtás során mégis kudarcot vallanak a kivitelezhetetlen akciók, a korlátozások megsértése, vagy a felhalmozódó hibák miatt — írja az ArXiv-en megjelent tanulmány.
A PIVOT (Plan-Inspect-eVOlve Trajectories) éppen ezt a tervezési és végrehajtási eltérést célozza meg egy önszabályozó keretrendszerrel. A rendszer a trajektóriákat, azaz a tervezett útvonalakat optimalizálható objektumokként kezeli, amelyeket iteratívan finomít a környezettel való interakció során.
A pontosság új dimenziói
A PIVOT négy szakaszból áll: a PLAN fázisban jelölt trajektóriákat generál; a INSPECT fázisban végrehajtja ezeket, és strukturált veszteségeket számít ki, szöveges gradiensekkel kódolva a terv-végrehajtás eltéréseit. A EVOLVE szakasz ezeket a jeleket alkalmazza a javított trajektóriák előállítására, míg a VERIFY egy végső globális ellenőrzést végez a feladat korlátai ellen.
Tervezési és végrehajtási pontosság
A DeepPlanning és GAIA benchmarkokon végzett empirikus értékelések azt mutatják, hogy a PIVOT a jelenlegi legmodernebb teljesítményt nyújtja. Emberi beavatkozással (human-in-the-loop, HITL) történő visszajelzés esetén a rendszer még tovább javítja a pontosságot, ami a DeepPlanning és GAIA teszteken is megmutatkozott, 2024. márciusban publikált tanulmány szerint.