Kutatás2026. jún. 1.frissítve: 13:30

MAVEN rendszer 23%-kal javítja az AI-ügynökök általánosítását komplex feladatokon

A MAVEN nevű új szimbolikus keretrendszer 23%-kal növeli az AI-ügynökök pontosságát a bonyolult feladatok megoldásában, miközben a számítási költségeket tizedére csökkenti.

Fotó: BoliviaInteligente / Unsplash

forrás: ArXiv AI·AI Forradalom szerk.·2026. június 1.

Megosztás

A MAVEN (Modular Agentic Verification and Execution Network) egy új, könnyű szimbolikus keretrendszer, amely a moduláris felbontásra, az adaptív eszközkészlet-szervezésre és a köztes ellenőrzésre összpontosít. A kutatók szerint ez a megközelítés kulcsfontosságú az AI-ügynökök megbízhatóbbá tételéhez.

A keretrendszer különösen a különböző környezetekben való általánosítás terén jelent kihívást. Bár a nagy nyelvi modellek (LLM-ek) egyedi benchmarkokon jól teljesítenek, nehezen tudják összekomponálni a következtetési stratégiákat, megőrizni a köztes állapotokat és koordinálni az eszközöket különböző tartományokon át. A MAVEN ezt a problémát igyekszik orvosolni.

Kapcsolódó: OpenTools teljesítmény

A komponens-architektúra hídja

A MAVEN-t több elismert eszközelhívási teljesítményteszten, köztük a BFCL v3, TauBench, Tau2Bench és AceBench tesztelték. Emellett bevezették a MAVEN-Bench nevű stressz-teszt teljesítménytesztet is, amely több lépésből álló matematikai és fizikai érvelést, explicit ellenőrzést és ellenséges feladatkompozíciót igényel.

Kapcsolódó: LLM fejlesztés

Érvelési teljesítmény fókuszpontja

A MAVEN-Bench futtatásai során a MAVEN a GPT-OSS-120b alapmodellt további betanítás nélkül 48%-ról 71%-ra javította. Ez a teljesítmény versenyképes a legfejlettebb, szabadalmaztatott alapmodellekkel szemben, miközben egy nyílt súlyú (open-weight) modellt használ, becsült költség-aránya pedig nagyjából 1/10.

Kapcsolódó: PIVOT módszer

A kutatás arra is rámutat, hogy a MAVEN körülbelül 10-szeres költségcsökkentést tesz lehetővé a számítási kapacitás terén. A MAVEN rendszer a GPT-OSS-120b modellt 2024. év végére tervezi alkalmazni.

Kapcsolódó: Solvita keretrendszer

tetszett a cikk? oszd meg →

Megosztás