Kilencszer gyorsabb képgenerálás: az A-SelecT kiszűri a felesleges lépéseket
Changyu Liu és kutatótársai olyan módszert dolgoztak ki, amely automatikusan kiválasztja a Diffusion Transformer legfontosabb lépéseit — akár kilencszeres gyorsulást elérve.

A Changyu Liu és csapata a legutóbbi arXiv publikációjával, az A-SelecT: Automatic Timestep Selection for Diffusion Transformer Representation Learning című cikkel, bemutatta, hogyan lehet a Diffusion Transformer (DiT) képzése során a lépésszámot jelentősen csökkenteni. A kutatás szerint a módszer akár 9 lépéscsökkenést is képes elérni egy perc alatt, miközben a modell reprezentációs képességeit nem csökkenti.
A DiT a generatív AI területén egyre népszerűbb alternatívája a hagyományos U‑Net alapú modelleknek, de a hatékonysága korábban a nem optimális timestep‑keresés miatt korlátozódott. Az A-SelecT dinamikusan azonosítja a leginformációgazdagabb timestepet a transformer egyes rétegeiből egyetlen futás során, így kiküszöbölve a számításigényes, exhaustív keresést.
Az algoritmus a high‑frequency indicator (HFR) módszerét használja, hogy gyorsan és pontosan válassza ki a megfelelő időlépést. Ez a megközelítés figyelembe veszi a DiT belső, transformer‑specifikus tervezési elemeit, amelyek korábbi, réteg‑réteg kimenetekből való jellemzők kinyerésekor nem kerültek megfelelően kihasználásra.
Az eredmények a klaszterezési és szegmentációs feladatokon is kimutatták, hogy a DiT A-SelecT‑kel támogatott verziója hatékonyabban teljesít, mint a korábbi diffusion‑alapú megoldások. A cikkben bemutatott benchmarkok alapján a modell nem csak gyorsabb, hanem jobban generalizál a vizuális adathalmazokon.
Jelenleg a kutatók a modell továbbfejlesztésén dolgoznak, különös tekintettel a valós idejű alkalmazásokra. A következő hónapokban várható a publikált kód és modellek megosztása, ami lehetővé teszi a közösség számára, hogy saját projektekben is kipróbálják az A-SelecT-et.