Kutatás2026. ápr. 19.frissítve: 10:50

Skálázható RL-paradigmát mutatott be az ArXiv: a Value Gradient Flow

A Value Gradient Flow (VGF) névre keresztelt módszer a viselkedés-szabályozott megerősítő tanulás (RL) problémáira kínál skálázható megoldást, ami kritikus a nagy generatív modellek finomhangolásánál.

Fotó: Sufyan / Unsplash

forrás: ArXiv ML·AI Forradalom szerk.·2026. április 19.

Megosztás

Új, skálázható paradigmát javasol a viselkedés-szabályozott megerősítő tanuláshoz (RL) az ArXiv-en megjelent kutatás, melynek neve Value Gradient Flow (VGF) — írja az ArXiv ML.

A VGF módszerrel a kutatók az úgynevezett érték-túlállítás (value over-optimization) problémáját célozzák, ami gyakran felmerül az elosztáson kívüli extrapoláció során. Ez a jelenség különösen az offline RL-ben és a nagy nyelvi modellek (LLM) RL finomhangolásában jelent kihívást, ahol a referenciaeloszlás (például egy adathalmaz vagy egy alapmodell) felé történő szabályozás elengedhetetlen.

A szabályozás folyamatos áramlása

A jelenlegi megoldások vagy az átparaméterezett policy gradiensekre támaszkodnak, amelyek nehezen skálázhatók nagy generatív modellekhez, vagy a reject sampling technikát alkalmazzák, ami túlságosan konzervatív lehet, ha a viselkedési tartományon túlra kell lépni. A VGF ezzel szemben a viselkedés-szabályozott RL-t egy optimális transzportproblémaként kezeli, amely a referenciaeloszlást az érték által indukált optimális policy eloszláshoz rendeli.

Áttörés a skálázhatóságban

A transzportproblémát diszkrét gradiens áramlással oldják meg, ahol az értékgradiensek irányítják a referenciaeloszlásból inicializált részecskéket. Az elemzés szerint a VGF hatékonyan szabályozza a modellek viselkedését, miközben lehetővé teszi az adaptív tesztidőbeli skálázást, ami a szekvenciális döntéshozatali feladatok megoldásában jelentős előrelépést hozhat. A VGF módszer a 2024-es év elején kerülhet bevezetésre az ArXiv ML által támogatott kutatásokba.

tetszett a cikk? oszd meg →

Megosztás