Kutatás2026. máj. 13.frissítve: 07:30

Egységes képgeneráló alapmodellt mutatott be a HiDream-O1-Image — nincs szükség külön VAE-re

A modell egyetlen, megosztott token-térben egyesíti a képpixeleket, szöveges tokeneket és feladatspecifikus feltételeket, így nincs szüksége külön VAE-kre vagy előre képzett szöveges kódolókra.

Fotó: Andrey Matveev / Unsplash

forrás: ArXiv CV·AI Forradalom szerk.·2026. május 13.

Megosztás

Új, egységes képgeneráló alapmodell mutatkozott be HiDream-O1-Image néven, amely a moduláris architektúrák helyett egy végponttól végpontig tartó megközelítést alkalmaz — derül ki az arXiv-on előnyomtatott formában közzétett tanulmányból.

A HiDream-O1-Image a pixel-térbeli Diffusion Transformer technológiát használja, ezzel paradigmaváltást hozva a vizuális generatív modellek terén. A kutatók szerint ez a megközelítés felülírja a korábbi, töredezett architektúrákat, amelyek elszigetelt szöveges kódolókra és külső VAE-kre támaszkodtak.

A modell a nyers képpixeleket, szöveges tokeneket és feladatspecifikus feltételeket egyetlen, megosztott token-térbe térképezi le egy Unified Transformer (UiT) architektúra segítségével. Ez a natív kódolási eljárás szükségtelenné teszi a külön VAE-k vagy előre betanított szöveges kódolók használatát.

Az egységes architektúra lehetővé teszi, hogy a HiDream-O1-Image a különböző generálási és szerkesztési feladatokat egységes, kontextuson belüli érvelési folyamatként kezelje. A modell állítólag kiválóan teljesít számos generálási feladatban, beleértve a szövegből kép generálást is — állítják a fejlesztők.

A HiDream-O1-Image modell az arXiv:2605.11061v1 azonosító alatt érhető el.

tetszett a cikk? oszd meg →

Megosztás