Frissítve: 1 órája·Ma: 7
Kutatás
AI által generált szöveg

Jutalom-hackelés nélkül finomhangolja a diffúziós modelleket az új TMPO rendszer

A megerősítéses tanulás (RL) eddig jutalom-hackeléshez és a generatív sokféleség csökkenéséhez vezetett a diffúziós modellek finomhangolásánál, ezt orvosolja a Trajectory Matching Policy Optimization (TMPO).

Jutalom-hackelés nélkül finomhangolja a diffúziós modelleket az új TMPO rendszer
Fotó: GuerrillaBuzz / Unsplash
Forrás: ArXiv MLSzerző: AI Forradalom szerk.
Megosztás

A megerősítéses tanulás (RL) hatalmas potenciált mutatott a diffúziós modellek feladatokhoz igazításában, ám a legtöbb módszer jelentős jutalom-hackeléstől szenved. Ez rontja a generatív sokféleséget és a minőséget, vizuális módösszeomlást okozva és felerősítve a megbízhatatlan jutalmakat — írják az arXiv kutatói.

A probléma gyökere a jelenlegi RL-módszerek módkereső jellegében rejlik. Ezek a módszerek a várható jutalmat maximalizálják anélkül, hogy hatékonyan korlátoznák az elfogadható trajektóriák valószínűségi eloszlását, ami néhány magas jutalmú útvonalra való koncentrációt eredményez — állítják a kutatók.

A jutalom-hackelés elleni küzdelem

Ezzel szemben a kutatók a Trajectory Matching Policy Optimization (TMPO) nevű új megközelítést javasolják. Ez a módszer a skaláris jutalom-maximalizálást trajektória-szintű jutalomeloszlás-illesztéssel helyettesíti. A TMPO bevezet egy Softmax Trajectory Balance (Softmax-TB) objektív funkciót, amely K trajektória irányelvi valószínűségeit egy jutalom-indukált Boltzmann-eloszláshoz illeszti.

A generatív sokféleség megőrzése

A kutatók bizonyították, hogy ez az objektív funkció örökli a forward módlefedő tulajdonságát, ami kulcsfontosságú a generatív sokféleség megőrzésében. A TMPO célja, hogy stabilabb és sokoldalúbb diffúziós modelleket hozzon létre, elkerülve a korábbi RL-alapú finomhangolások hibáit.

A TMPO módszerrel a diffúziós modellek képesek lehetnek a felhasználói preferenciák szélesebb skáláját lefedni, miközben megőrzik a generált tartalmak magas minőségét. A kutatás az arXiv:2605.10983v1 számon jelent meg előnyomtatott formában, 2024. január 1-jén.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom