Wan-Image: Új generatív AI-rendszer váltja a képgenerálást professzionális eszközzé
A rendszer a nagyméretű nyelvi modellek (LLM) kognitív képességeit ötvözi a diffúziós transzformerek pixel-szintézisével, így pontosabban fordítja le a felhasználói szándékot vizuális kimenetté.

Wan-Image néven mutattak be egy új egységes vizuális generációs rendszert, amelynek célja, hogy a képgeneráló modelleket az alkalmi szintetizátorokból professzionális tervezőeszközökké alakítsa — írja az ArXiv CV.
A jelenlegi diffúziós modellek korlátai ellenére a Wan-Image egy natívan egységes, multimodális architektúrával kezeli a szigorú tervezési munkafolyamatokat, abszolút kontrollt, komplex tipográfiai renderelést és szigorú identitásmegőrzést igénylő feladatokat.
A kreativitás felszabadítása
A Wan-Image rendszer nagyméretű multimodális adatskálázásra, szisztematikus finomhangolású annotációs motorra és kurált megerősítéses tanulási adatokra épül, hogy túllépjen az alapvető utasításkövetésen.
Vizuális átalakulás
A modell a GitHubon elérhető Wan 2.1/2.2, Qwen Image, Hunyuan Video és Flux modelleket is támogatja, és képes a videók képarányának automatikus módosítására is. A Picsart már integrálta a WAN 2.7-es verzióját, amely 2024. március 15-én vált elérhetővé.