Új Lookahead Drifting modell javítja a képgenerálást — egy lépésben ér el SOTA-t
A modell a korábbi egy lépéses módszerekkel szemben több, egymást követő "drifting" kifejezést számol ki a betanítás során, ezzel hatékonyabban igazítva a kimenetet a kívánt eredményekhez.

Egy új tanulmány szerint a Lookahead Drifting modell egyetlen neurális funkciókiértékeléssel éri el a legmodernebb képgenerálási teljesítményt az ImageNet adathalmazon — írja az ArXiv-en megjelent kutatás.
A Lookahead Drifting modell a képgenerálás terén elért áttörést jelent, mivel képes hatékonyabban igazítani a kimenetet a kívánt eredményekhez a korábbi egy lépéses módszerekhez képest.
A képgenerálás folyamatos áramlása
A "drifting modellek" új paradigmája elosztások leképezésére szolgál, és a Lookahead Drifting modell továbbfejleszti ezt a koncepciót. A betanítás során a rendszer egy sor "drifting" kifejezést számol ki szekvenciálisan. Minden ilyen kifejezés az előzőleg kiszámított értékeket, valamint a pozitív mintákat és a modell kimenetét is felhasználja.
A modell szívében: a "drifting" kifejezések
A kulcsfontosságú lépés a "drifting" kifejezések megfelelő skálázása, hogy nagyságrendjük összehasonlítható legyen. Az ArXiv-tanulmány szerint a későbbi szakaszokban kapott "drifting" kifejezések magasabb rendű gradiens-információkat rögzítenek a pozitív minták felé, ami finomítja a képminőséget minden iterációval.
A modell optimalizálása a kimenet "drifting" kifejezések irányába történő eltolásával történik, ami a korábbi egy lépéses beállításokhoz képest jobb konvergenciát és teljesítményt eredményez. A Tencent egy hasonló, kompakt AI fordítási modellről is beszámolt, amely szintén több "drifting" kifejezést használ az offline működéshez, és a fejlesztés 2024-ben kezdődött.