Frissítve: 1 órája·Ma: 15
Kutatás
AI által generált szöveg

VibeToken-Gen felbontásfüggetlen képgenerátor 64 tokennel 3.94 gFID‑et ér el

A preprint szerzői egy 32‑256 tokenből álló dinamikus sorozattal kódoló, felbontásfüggetlen tokenizálót fejlesztettek, amely a VibeToken névre hallgat.

VibeToken-Gen felbontásfüggetlen képgenerátor 64 tokennel 3.94 gFID‑et ér el
Fotó: Possessed Photography / Unsplash
Forrás: ArXiv CVSzerző: AI Forradalom szerk.
Megosztás

A VibeToken-Gen a VibeToken tokenizálóra épül, és képes tetszőleges felbontású képeket előállítani — írja az arXiv.

A felbontásfüggetlen tokenizálás áttörése

A LlamaGenhez hasonló, fix‑felbontású autoregresszív modellek FLOP‑száma négyzetesen nő a felbontás növekedésével, ami a nagyobb képméretek esetén számottevő számítási költséget jelent.

Változó dimenziók a VibeToken‑nel

A VibeToken egy 1D Transformer‑alapú tokenizáló, amely 32‑256 tokenből álló, felhasználó‑szabályozható sorozattal kódolja a képeket, ezáltal felbontásfüggetlen és általánosítható különböző arányokra.

Állítólag a VibeToken‑Gen 1024×1024 képeket csak 64 token felhasználásával szintetizál, és 3.94 gFID‑et ér el; a diffusion‑alapú állapot‑a‑művészet alternatíva 1 024 tokennel 5.87 gFID‑et produkál.

A VibeToken‑Gen 3.94 gFID‑et ért el a preprintben bemutatott teljesítményteszten 1024×1024 képméretnél, a tesztet a szerzők saját adathalmazukon végezték, 2024. március 15-én tették közzé az arXiv-en.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom