Weblica: Ezer webes környezetben képez ki vizuális AI-ügynököket az új rendszer
A Weblica (Web Replica) HTTP-szintű gyorsítótárazást és LLM-alapú környezetszintézist használ, így kiküszöböli a hagyományos módszerek korlátait.

Reprodukálható és skálázható webes környezeteket hoz létre a Weblica, egy új rendszer, amely vizuális webes ügynökök betanítására alkalmas — írja az ArXiv-en megjelent tanulmány.
A web összetettsége és folyamatos változása eddig komoly kihívást jelentett a vizuális webes ügynökök betanítási adatainak skálázásában. A meglévő adatgyűjtési kísérletek vagy offline trajektóriákra korlátozódtak a felügyelt finomhangoláshoz, vagy csak néhány szimulált környezetet használtak a RL (Reinforcement Learning) tréninghez, ami nem fedte le a webes sokszínűséget.
Skálázható tréning LLM-mel
A Weblica két komplementer mechanizmust vezet be. Egyrészt HTTP-szintű gyorsítótárazást alkalmaz, amely rögzíti és visszajátssza a stabil vizuális állapotokat, miközben megőrzi az interaktív viselkedést. Másrészt LLM-alapú környezetszintézist használ, amely valós weboldalakon és alapvető webes navigációs készségeken alapul.
Ezzel a rendszerrel a kutatók több ezer különböző környezetben és feladatban tudták skálázni a RL-betanítást. A legjobb modelljük, a Weblica-8B, hasonló méretű nyílt forráskódú alapmodelleket múl fel több webes navigációs teljesítményteszten, kevesebb következtetési lépéssel, és jól skálázódik további tesztidejű számítási kapacitással.