Egységes képgeneráló alapmodellt mutatott be a HiDream-O1-Image — nincs szükség külön VAE-re
A modell egyetlen, megosztott token-térben egyesíti a képpixeleket, szöveges tokeneket és feladatspecifikus feltételeket, így nincs szüksége külön VAE-kre vagy előre képzett szöveges kódolókra.

Új, egységes képgeneráló alapmodell mutatkozott be HiDream-O1-Image néven, amely a moduláris architektúrák helyett egy végponttól végpontig tartó megközelítést alkalmaz — derül ki az arXiv-on előnyomtatott formában közzétett tanulmányból.
A HiDream-O1-Image a pixel-térbeli Diffusion Transformer technológiát használja, ezzel paradigmaváltást hozva a vizuális generatív modellek terén. A kutatók szerint ez a megközelítés felülírja a korábbi, töredezett architektúrákat, amelyek elszigetelt szöveges kódolókra és külső VAE-kre támaszkodtak.
A modell a nyers képpixeleket, szöveges tokeneket és feladatspecifikus feltételeket egyetlen, megosztott token-térbe térképezi le egy Unified Transformer (UiT) architektúra segítségével. Ez a natív kódolási eljárás szükségtelenné teszi a külön VAE-k vagy előre betanított szöveges kódolók használatát.
Az egységes architektúra lehetővé teszi, hogy a HiDream-O1-Image a különböző generálási és szerkesztési feladatokat egységes, kontextuson belüli érvelési folyamatként kezelje. A modell állítólag kiválóan teljesít számos generálási feladatban, beleértve a szövegből kép generálást is — állítják a fejlesztők.
A HiDream-O1-Image modell az arXiv:2605.11061v1 azonosító alatt érhető el.