Nvidia új keretrendszere: agentic scaffolding nélkül az AI-modellek megbuknak a robotvezérlésben
A CaP-Agent0 rendszer, amely egy vizuális különbségmodullal, automatikusan generált függvénykönyvtárral és párhuzamos kódkészítéssel működik, emberi szintű teljesítményt ért el négy feladatból hétben.

Az Nvidia, a UC Berkeley, a Stanford és a Carnegie Mellon együttműködésével kifejlesztett CaP-X keretrendszer szisztematikusan teszteli, hogy milyen jól irányíthatnak az AI-modellek robotokat kódon keresztül. A kutatók megállapították, hogy az emberi tervezésű absztrakciók nélkül még a legjobb modellek is megbuknak, de olyan módszerek, mint a célzott tesztidő-számítási skálázás, csökkentik a rést.
A CaP-X keretrendszer 12 különböző modellt tesztelt, köztük a Gemini-3-Pro, a GPT-5.2 és a Claude Opus 4.5 modelleket, hét különböző feladatban. A modellek teljesítménye jelentősen változott attól függően, hogy milyen építőelemekhez fértek hozzá. Ha az építőelemek magas szinten voltak, a modellek csak a megfelelő sorrendben kellett elrendezzék őket, de ha az alacsony szintű lépéseket használták, a sikerarányuk jelentősen csökkent.
A kutatók egy olyan rendszert fejlesztettek ki, amely egy vizuális különbségmodullal, automatikusan generált függvénykönyvtárral és párhuzamos kódkészítéssel működik, és emberi szintű teljesítményt ért el négy feladatból hétben. A rendszer, amelyet CaP-Agent0-nak neveztek el, képes arra, hogy egy vizuális különbségmodul segítségével megértse a környezetet, és ennek alapján generáljon kódot.
A CaP-X keretrendszer emellett bevezeti a CaP-RL módszert is, amely a megerősítési tanulás segítségével javítja a nyelvi modellek teljesítményét a robotvezérlésben. A modell egy fizika-szimuláción alapuló jutalmazási jelzésekkel tanul, és a generált kód sikeres robotmozgást eredményez, a modell pozitív visszajelzést kap. Egy Qwen2.5-Coder-7B modell, amely ezzel a módszerrel tanult, 4-ről 44 százalékra növelte a sikerarányát a kocka-stacking feladatban.
A kutatók azt javasolják, hogy a kódoló ügynökök kezeljék a magas szintű feladatlogikát és a helyreállítást, míg a specializált látás-nyelv-cselekvési szabályzatok kezeljék a finom motorvezérlést. A teljes CaP-X keretrendszer, beleértve a CaP-Gym, a CaP-Bench, a CaP-Agent0 és a CaP-RL, nyílt hozzáférésű platformként érhető el a kutatók számára.