Skálázható RL-paradigmát mutatott be az ArXiv: a Value Gradient Flow
A Value Gradient Flow (VGF) névre keresztelt módszer a viselkedés-szabályozott megerősítő tanulás (RL) problémáira kínál skálázható megoldást, ami kritikus a nagy generatív modellek finomhangolásánál.

Új, skálázható paradigmát javasol a viselkedés-szabályozott megerősítő tanuláshoz (RL) az ArXiv-en megjelent kutatás, melynek neve Value Gradient Flow (VGF) — írja az ArXiv ML.
A VGF módszerrel a kutatók az úgynevezett érték-túlállítás (value over-optimization) problémáját célozzák, ami gyakran felmerül az elosztáson kívüli extrapoláció során. Ez a jelenség különösen az offline RL-ben és a nagy nyelvi modellek (LLM) RL finomhangolásában jelent kihívást, ahol a referenciaeloszlás (például egy adathalmaz vagy egy alapmodell) felé történő szabályozás elengedhetetlen.
A szabályozás folyamatos áramlása
A jelenlegi megoldások vagy az átparaméterezett policy gradiensekre támaszkodnak, amelyek nehezen skálázhatók nagy generatív modellekhez, vagy a reject sampling technikát alkalmazzák, ami túlságosan konzervatív lehet, ha a viselkedési tartományon túlra kell lépni. A VGF ezzel szemben a viselkedés-szabályozott RL-t egy optimális transzportproblémaként kezeli, amely a referenciaeloszlást az érték által indukált optimális policy eloszláshoz rendeli.
Áttörés a skálázhatóságban
A transzportproblémát diszkrét gradiens áramlással oldják meg, ahol az értékgradiensek irányítják a referenciaeloszlásból inicializált részecskéket. Az elemzés szerint a VGF hatékonyan szabályozza a modellek viselkedését, miközben lehetővé teszi az adaptív tesztidőbeli skálázást, ami a szekvenciális döntéshozatali feladatok megoldásában jelentős előrelépést hozhat. A VGF módszer a 2024-es év elején kerülhet bevezetésre az ArXiv ML által támogatott kutatásokba.