ÉlőUtoljára: 1 órájaMa: 25
Kutatásfrissítve: 08:50

Skálázható RL-paradigmát mutatott be az ArXiv: a Value Gradient Flow

A Value Gradient Flow (VGF) névre keresztelt módszer a viselkedés-szabályozott megerősítő tanulás (RL) problémáira kínál skálázható megoldást, ami kritikus a nagy generatív modellek finomhangolásánál.

Skálázható RL-paradigmát mutatott be az ArXiv: a Value Gradient Flow
Fotó: Fotó: Sufyan / Unsplash
forrás: ArXiv ML·AI Forradalom szerk.·
Megosztás

Új, skálázható paradigmát javasol a viselkedés-szabályozott megerősítő tanuláshoz (RL) az ArXiv-en megjelent kutatás, melynek neve Value Gradient Flow (VGF) — írja az ArXiv ML.

A VGF módszerrel a kutatók az úgynevezett érték-túlállítás (value over-optimization) problémáját célozzák, ami gyakran felmerül az elosztáson kívüli extrapoláció során. Ez a jelenség különösen az offline RL-ben és a nagy nyelvi modellek (LLM) RL finomhangolásában jelent kihívást, ahol a referenciaeloszlás (például egy adathalmaz vagy egy alapmodell) felé történő szabályozás elengedhetetlen.

A szabályozás folyamatos áramlása

A jelenlegi megoldások vagy az átparaméterezett policy gradiensekre támaszkodnak, amelyek nehezen skálázhatók nagy generatív modellekhez, vagy a reject sampling technikát alkalmazzák, ami túlságosan konzervatív lehet, ha a viselkedési tartományon túlra kell lépni. A VGF ezzel szemben a viselkedés-szabályozott RL-t egy optimális transzportproblémaként kezeli, amely a referenciaeloszlást az érték által indukált optimális policy eloszláshoz rendeli.

Áttörés a skálázhatóságban

A transzportproblémát diszkrét gradiens áramlással oldják meg, ahol az értékgradiensek irányítják a referenciaeloszlásból inicializált részecskéket. Az elemzés szerint a VGF hatékonyan szabályozza a modellek viselkedését, miközben lehetővé teszi az adaptív tesztidőbeli skálázást, ami a szekvenciális döntéshozatali feladatok megoldásában jelentős előrelépést hozhat. A VGF módszer a 2024-es év elején kerülhet bevezetésre az ArXiv ML által támogatott kutatásokba.

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom