Kutatás2026. máj. 13.frissítve: 07:30

Jutalom-hackelés nélkül finomhangolja a diffúziós modelleket az új TMPO rendszer

A megerősítéses tanulás (RL) eddig jutalom-hackeléshez és a generatív sokféleség csökkenéséhez vezetett a diffúziós modellek finomhangolásánál, ezt orvosolja a Trajectory Matching Policy Optimization (TMPO).

Fotó: GuerrillaBuzz / Unsplash

forrás: ArXiv ML·AI Forradalom szerk.·2026. május 13.

Megosztás

A megerősítéses tanulás (RL) hatalmas potenciált mutatott a diffúziós modellek feladatokhoz igazításában, ám a legtöbb módszer jelentős jutalom-hackeléstől szenved. Ez rontja a generatív sokféleséget és a minőséget, vizuális módösszeomlást okozva és felerősítve a megbízhatatlan jutalmakat — írják az arXiv kutatói.

A probléma gyökere a jelenlegi RL-módszerek módkereső jellegében rejlik. Ezek a módszerek a várható jutalmat maximalizálják anélkül, hogy hatékonyan korlátoznák az elfogadható trajektóriák valószínűségi eloszlását, ami néhány magas jutalmú útvonalra való koncentrációt eredményez — állítják a kutatók.

A jutalom-hackelés elleni küzdelem

Ezzel szemben a kutatók a Trajectory Matching Policy Optimization (TMPO) nevű új megközelítést javasolják. Ez a módszer a skaláris jutalom-maximalizálást trajektória-szintű jutalomeloszlás-illesztéssel helyettesíti. A TMPO bevezet egy Softmax Trajectory Balance (Softmax-TB) objektív funkciót, amely K trajektória irányelvi valószínűségeit egy jutalom-indukált Boltzmann-eloszláshoz illeszti.

A generatív sokféleség megőrzése

A kutatók bizonyították, hogy ez az objektív funkció örökli a forward módlefedő tulajdonságát, ami kulcsfontosságú a generatív sokféleség megőrzésében. A TMPO célja, hogy stabilabb és sokoldalúbb diffúziós modelleket hozzon létre, elkerülve a korábbi RL-alapú finomhangolások hibáit.

A TMPO módszerrel a diffúziós modellek képesek lehetnek a felhasználói preferenciák szélesebb skáláját lefedni, miközben megőrzik a generált tartalmak magas minőségét. A kutatás az arXiv:2605.10983v1 számon jelent meg előnyomtatott formában, 2024. január 1-jén.

tetszett a cikk? oszd meg →

Megosztás