A Photoroom 24 óra alatt kiképzett egy szövegből képet generáló modellt
A Photoroom csapata 32 H200 GPU-t használt, összesen 1500 dollár értékű számítási kapacitást, a modell betanításához.

A Photoroom csapata 32 H200 GPU‑t használva, összesen 1 500 dollár értékű számítási kapacitással, egy szövegből képet generáló diffúziós modellt tanított be 24 órán belül. A 2 USD/óra/GPU költség mellett a 32 GPU egyidejű futtatása 512 px és 1024 px felbontású képeken dolgozott, 100 k lépés 512 px‑nél, majd 20 k lépés 1024 px‑nél, 512 batch‑számmal.
Miért fontos? A régi diffúziós modellek több millió dollárba kerültek, míg itt a gyorsan bevezethető, 24 órás tréning bemutatja, hogy a megfelelő architektúra és finomhangolás mellett mennyire közelíthetünk a versenyképes minőséghez egyetlen nap alatt. A cél: egy erősebb, valós idejű alkalmazásra alkalmas modell alapját lefektetni.
Technikai részletek: a csapat a x‑prediction formulációt alkalmazta, amely a pixel‑térben tanít, így elhagyja a VAE‑t. 32‑pixel patch‑méretű tokenekkel 256‑dimenziós bottlenecket használtak, a 512 px felbontáshoz 256, a 1024 px-hez 1024 token. Perceptual loss‑okat – LPIPS (0,1 súly) és DINOv2 (0,01 súly) – minden zajszinten alkalmaztak, hogy gyorsítsák a konvergenciát és javítsák a vizuális minőséget. Token routing‑t TREAD‑el végeztek, 50 % tokenet áthelyezve a 2‑től a penultimate blokkig, miközben saját self‑guidance rendszert alkalmaztak a routed modellek stabilitásához. REPA és DINOv3‑t használtak reprezentációs igazolásra, a 8. blokkban 0,5 súlyú loss‑tal.
A modell tanítása során Muon optimalizálót használtak 2D paraméterekre, Adamot pedig a többi paraméterhez. Három nyilvános szintetikus adathalmaz – Flux generated (1,7 M), Flux‑Reason‑6M (6 M) és midjourney‑v6‑llava (1 M) – adta a tréning alapját.
A 24 órás speedrun eredményeként a modell már meglehetősen jó minőségű képeket képes generálni, ami a Photoroom következő nagy lépésének alapját képezi. A kód nyílt forráskódú, a GitHub‑on elérhető, így bárki reprodukálhatja, módosíthatja, és továbbfejlesztheti a folyamatot.