Frissítve: 2 órája·Ma: 2
Kutatás
AI által generált szöveg

GROW-módszerrel gyorsítja a VLM-ügynökök nyílt világú feladatmegoldását az ArXiv

A GROW a teljes trajektóriák helyett állapot-akció mintákra bontja a feladatokat, így kiküszöböli a túlzottan hosszú kontextus és a zaj problémáját a betanítás során.

GROW-módszerrel gyorsítja a VLM-ügynökök nyílt világú feladatmegoldását az ArXiv
Fotó: Wonderlane / Unsplash
Forrás: ArXiv MLSzerző: AI Forradalom szerk.
Megosztás

Új megerősítő tanulási (RL) rendszert mutatott be az ArXiv-en egy kutatócsoport, amely a nyílt világú feladatokban segíti a látás-nyelvi modellek (VLM) ügynökeit. A GROW (Aligning GRPO with State-Action Modeling for Open-World VLM Agents) nevű módszer a Group Relative Policy Optimization (GRPO) algoritmust használja, amelyet eddig nem alkalmaztak hatékonyan többlépéses RL feladatokhoz — írja a preprint.

A VLM-ügynökök az utóbbi időben jelentős fejlődést mutattak a nyílt világú feladatokban, ahol a sikeres teljesítés gyakran több vizuális érzékelési és cselekvési lépést igényel. A jelenlegi módszerek azonban még mindig elsősorban szakértői demonstrációkon alapuló felügyelt finomhangolásra (SFT) támaszkodnak.

A GRPO algoritmussal az eddigi megközelítések problémája a volt, hogy teljes trajektóriákat igényelt betanítási mintaként. Ez túlzottan hosszú kontextust és zajt eredményezett, ami gátolta az algoritmus hatékony alkalmazását. A GROW rendszer ezt a problémát úgy oldja meg, hogy a gyűjtött trajektóriákat állapot-akció mintákra bontja, és ezek között számolja ki az előnyöket, ahelyett, hogy egy teljes trajektóriát egyetlen entitásként kezelne.

A GROW-módszer áttörése

A GROW egy származtatott elemzést is biztosít, amely alátámasztja a csoportosított minták hatékonyságát. A módszer célja, hogy a VLM-ügynökök még összetettebb, valós környezeti feladatokban is megbízhatóan működjenek.

A jövőbeli alkalmazások lehetőségei

A GROW rendszer a VLM-ügynökök nyílt világú feladatmegoldásának gyorsításával az ArXiv-en 2024. március 15-én publikált tanulmányban mutatkozott be, ahol a Group Relative Policy Optimization algoritmust használja.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom