Jutalom-hackelés nélkül finomhangolja a diffúziós modelleket az új TMPO rendszer
A megerősítéses tanulás (RL) eddig jutalom-hackeléshez és a generatív sokféleség csökkenéséhez vezetett a diffúziós modellek finomhangolásánál, ezt orvosolja a Trajectory Matching Policy Optimization (TMPO).

A megerősítéses tanulás (RL) hatalmas potenciált mutatott a diffúziós modellek feladatokhoz igazításában, ám a legtöbb módszer jelentős jutalom-hackeléstől szenved. Ez rontja a generatív sokféleséget és a minőséget, vizuális módösszeomlást okozva és felerősítve a megbízhatatlan jutalmakat — írják az arXiv kutatói.
A probléma gyökere a jelenlegi RL-módszerek módkereső jellegében rejlik. Ezek a módszerek a várható jutalmat maximalizálják anélkül, hogy hatékonyan korlátoznák az elfogadható trajektóriák valószínűségi eloszlását, ami néhány magas jutalmú útvonalra való koncentrációt eredményez — állítják a kutatók.
A jutalom-hackelés elleni küzdelem
Ezzel szemben a kutatók a Trajectory Matching Policy Optimization (TMPO) nevű új megközelítést javasolják. Ez a módszer a skaláris jutalom-maximalizálást trajektória-szintű jutalomeloszlás-illesztéssel helyettesíti. A TMPO bevezet egy Softmax Trajectory Balance (Softmax-TB) objektív funkciót, amely K trajektória irányelvi valószínűségeit egy jutalom-indukált Boltzmann-eloszláshoz illeszti.
A generatív sokféleség megőrzése
A kutatók bizonyították, hogy ez az objektív funkció örökli a forward módlefedő tulajdonságát, ami kulcsfontosságú a generatív sokféleség megőrzésében. A TMPO célja, hogy stabilabb és sokoldalúbb diffúziós modelleket hozzon létre, elkerülve a korábbi RL-alapú finomhangolások hibáit.
A TMPO módszerrel a diffúziós modellek képesek lehetnek a felhasználói preferenciák szélesebb skáláját lefedni, miközben megőrzik a generált tartalmak magas minőségét. A kutatás az arXiv:2605.10983v1 számon jelent meg előnyomtatott formában, 2024. január 1-jén.