Frissítve: 12 perce·Ma: 10
Kutatás
AI által generált szöveg

Új PIVOT módszerrel javul a LLM-ügynökök tervezési és végrehajtási pontossága

A PIVOT egy önszabályozó keretrendszer, amely a tervek és a végrehajtás közötti eltéréseket orvosolja, ezzel jelentősen növeli a LLM-alapú ügynökök megbízhatóságát.

Új PIVOT módszerrel javul a LLM-ügynökök tervezési és végrehajtási pontossága
Fotó: Julia Koblitz / Unsplash
Forrás: ArXiv AISzerző: AI Forradalom szerk.
Megosztás

Gyakran fordul elő, hogy a nagyméretű nyelvi modelleken (LLM) alapuló ügynökök koherensnek tűnő terveket generálnak, amelyek a végrehajtás során mégis kudarcot vallanak a kivitelezhetetlen akciók, a korlátozások megsértése, vagy a felhalmozódó hibák miatt — írja az ArXiv-en megjelent tanulmány.

A PIVOT (Plan-Inspect-eVOlve Trajectories) éppen ezt a tervezési és végrehajtási eltérést célozza meg egy önszabályozó keretrendszerrel. A rendszer a trajektóriákat, azaz a tervezett útvonalakat optimalizálható objektumokként kezeli, amelyeket iteratívan finomít a környezettel való interakció során.

A pontosság új dimenziói

A PIVOT négy szakaszból áll: a PLAN fázisban jelölt trajektóriákat generál; a INSPECT fázisban végrehajtja ezeket, és strukturált veszteségeket számít ki, szöveges gradiensekkel kódolva a terv-végrehajtás eltéréseit. A EVOLVE szakasz ezeket a jeleket alkalmazza a javított trajektóriák előállítására, míg a VERIFY egy végső globális ellenőrzést végez a feladat korlátai ellen.

Tervezési és végrehajtási pontosság

A DeepPlanning és GAIA benchmarkokon végzett empirikus értékelések azt mutatják, hogy a PIVOT a jelenlegi legmodernebb teljesítményt nyújtja. Emberi beavatkozással (human-in-the-loop, HITL) történő visszajelzés esetén a rendszer még tovább javítja a pontosságot, ami a DeepPlanning és GAIA teszteken is megmutatkozott, 2024. márciusban publikált tanulmány szerint.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom