Kutatás2026. máj. 22.frissítve: 23:30

GROW-módszerrel gyorsítja a VLM-ügynökök nyílt világú feladatmegoldását az ArXiv

A GROW a teljes trajektóriák helyett állapot-akció mintákra bontja a feladatokat, így kiküszöböli a túlzottan hosszú kontextus és a zaj problémáját a betanítás során.

Fotó: Wonderlane / Unsplash

forrás: ArXiv ML·AI Forradalom szerk.·2026. május 22.

Megosztás

Új megerősítő tanulási (RL) rendszert mutatott be az ArXiv-en egy kutatócsoport, amely a nyílt világú feladatokban segíti a látás-nyelvi modellek (VLM) ügynökeit. A GROW (Aligning GRPO with State-Action Modeling for Open-World VLM Agents) nevű módszer a Group Relative Policy Optimization (GRPO) algoritmust használja, amelyet eddig nem alkalmaztak hatékonyan többlépéses RL feladatokhoz — írja a preprint.

A VLM-ügynökök az utóbbi időben jelentős fejlődést mutattak a nyílt világú feladatokban, ahol a sikeres teljesítés gyakran több vizuális érzékelési és cselekvési lépést igényel. A jelenlegi módszerek azonban még mindig elsősorban szakértői demonstrációkon alapuló felügyelt finomhangolásra (SFT) támaszkodnak.

A GRPO algoritmussal az eddigi megközelítések problémája a volt, hogy teljes trajektóriákat igényelt betanítási mintaként. Ez túlzottan hosszú kontextust és zajt eredményezett, ami gátolta az algoritmus hatékony alkalmazását. A GROW rendszer ezt a problémát úgy oldja meg, hogy a gyűjtött trajektóriákat állapot-akció mintákra bontja, és ezek között számolja ki az előnyöket, ahelyett, hogy egy teljes trajektóriát egyetlen entitásként kezelne.

A GROW-módszer áttörése

A GROW egy származtatott elemzést is biztosít, amely alátámasztja a csoportosított minták hatékonyságát. A módszer célja, hogy a VLM-ügynökök még összetettebb, valós környezeti feladatokban is megbízhatóan működjenek.

A jövőbeli alkalmazások lehetőségei

A GROW rendszer a VLM-ügynökök nyílt világú feladatmegoldásának gyorsításával az ArXiv-en 2024. március 15-én publikált tanulmányban mutatkozott be, ahol a Group Relative Policy Optimization algoritmust használja.

tetszett a cikk? oszd meg →

Megosztás