MAVEN rendszer 23%-kal javítja az AI-ügynökök általánosítását komplex feladatokon
A MAVEN nevű új szimbolikus keretrendszer 23%-kal növeli az AI-ügynökök pontosságát a bonyolult feladatok megoldásában, miközben a számítási költségeket tizedére csökkenti.

A MAVEN (Modular Agentic Verification and Execution Network) egy új, könnyű szimbolikus keretrendszer, amely a moduláris felbontásra, az adaptív eszközkészlet-szervezésre és a köztes ellenőrzésre összpontosít. A kutatók szerint ez a megközelítés kulcsfontosságú az AI-ügynökök megbízhatóbbá tételéhez.
A keretrendszer különösen a különböző környezetekben való általánosítás terén jelent kihívást. Bár a nagy nyelvi modellek (LLM-ek) egyedi benchmarkokon jól teljesítenek, nehezen tudják összekomponálni a következtetési stratégiákat, megőrizni a köztes állapotokat és koordinálni az eszközöket különböző tartományokon át. A MAVEN ezt a problémát igyekszik orvosolni.
Kapcsolódó: OpenTools teljesítmény
A komponens-architektúra hídja
A MAVEN-t több elismert eszközelhívási teljesítményteszten, köztük a BFCL v3, TauBench, Tau2Bench és AceBench tesztelték. Emellett bevezették a MAVEN-Bench nevű stressz-teszt teljesítménytesztet is, amely több lépésből álló matematikai és fizikai érvelést, explicit ellenőrzést és ellenséges feladatkompozíciót igényel.
Kapcsolódó: LLM fejlesztés
Érvelési teljesítmény fókuszpontja
A MAVEN-Bench futtatásai során a MAVEN a GPT-OSS-120b alapmodellt további betanítás nélkül 48%-ról 71%-ra javította. Ez a teljesítmény versenyképes a legfejlettebb, szabadalmaztatott alapmodellekkel szemben, miközben egy nyílt súlyú (open-weight) modellt használ, becsült költség-aránya pedig nagyjából 1/10.
Kapcsolódó: PIVOT módszer
A kutatás arra is rámutat, hogy a MAVEN körülbelül 10-szeres költségcsökkentést tesz lehetővé a számítási kapacitás terén. A MAVEN rendszer a GPT-OSS-120b modellt 2024. év végére tervezi alkalmazni.
Kapcsolódó: Solvita keretrendszer