Iteratív finomítással javítaná a képgenerálás minőségét és diverzitását a RTM
A képgeneráló modellek, mint a Stable Diffusion vagy a Midjourney, hiába fejlődtek látványosan, továbbra is küzdenek a módusösszeomlással és a korlátozott diverzitással.

Új módszert javasolnak kutatók a képgeneráló modellek minőségének és diverzitásának javítására — derül ki az arXiv-on előnyomtatott formában megjelent tanulmányból. A jelenlegi modellek, bár lenyűgözőek, még messze nem tökéletesek, és a domináns FID (Fréchet Inception Distance) metrika már közel telített.
A FID-et régóta használják a generált képek minőségének mérésére, ám a kutatók szerint ez a mérőszám önmagában félrevezető lehet. Egy modell akkor is alacsony FID-értéket érhet el, ha módusösszeomlást mutat, azaz csak néhány éles, szinte azonos képet generál, ahelyett, hogy hűen lefedné az adateloszlás teljes spektrumát. A tanulmány szerzői hangsúlyozzák, hogy a precízió és a visszahívás (precision és recall) sokkal pontosabban kiegészítik a FID-et, és a diverzitás javítása sokkal értelmesebb cél, mint a már telített FID további optimalizálása.
Iteratív finomítás a RTM-mel
A magas visszahívás eléréséhez olyan modellre van szükség, amely kifejezetten a móduslefedettséget helyezi előtérbe, szemben a legtöbb generatív modellel, amelyek a minták hűségét optimalizálják. Erre a célra vezették be a RTM (Recursive Latent Refinement) rendszert, amely a stílus alapú generátorokban az egyszeri látens leképezést egy iteratív finomítási folyamattal váltja fel.
A RTM integrálása az Implicit Maximum Likelihood Estimation (IMLE) módszerrel következetesen javítja mind a generált képek minőségét, mind a diverzitását. Ez a megközelítés lehetővé teszi, hogy a modellek ne csak éles, de változatosabb képeket is előállítsanak, elkerülve a módusösszeomlás csapdáját. A 2605.15309v1 azonosítójú tanulmány részletesen bemutatja a RTM működését és az IMLE-vel való szinergiáját.