Kutatás2026. ápr. 29.frissítve: 13:10

VibeToken-Gen felbontásfüggetlen képgenerátor 64 tokennel 3.94 gFID‑et ér el

A preprint szerzői egy 32‑256 tokenből álló dinamikus sorozattal kódoló, felbontásfüggetlen tokenizálót fejlesztettek, amely a VibeToken névre hallgat.

Fotó: Bernd 📷 Dittrich / Unsplash

forrás: ArXiv CV·AI Forradalom szerk.·2026. április 29.

Megosztás

A VibeToken-Gen a VibeToken tokenizálóra épül, és képes tetszőleges felbontású képeket előállítani — írja az arXiv.

A felbontásfüggetlen tokenizálás áttörése

A LlamaGenhez hasonló, fix‑felbontású autoregresszív modellek FLOP‑száma négyzetesen nő a felbontás növekedésével, ami a nagyobb képméretek esetén számottevő számítási költséget jelent.

Változó dimenziók a VibeToken‑nel

A VibeToken egy 1D Transformer‑alapú tokenizáló, amely 32‑256 tokenből álló, felhasználó‑szabályozható sorozattal kódolja a képeket, ezáltal felbontásfüggetlen és általánosítható különböző arányokra.

Állítólag a VibeToken‑Gen 1024×1024 képeket csak 64 token felhasználásával szintetizál, és 3.94 gFID‑et ér el; a diffusion‑alapú állapot‑a‑művészet alternatíva 1 024 tokennel 5.87 gFID‑et produkál.

A VibeToken‑Gen 3.94 gFID‑et ért el a preprintben bemutatott teljesítményteszten 1024×1024 képméretnél, a tesztet a szerzők saját adathalmazukon végezték, 2024. március 15-én tették közzé az arXiv-en.

tetszett a cikk? oszd meg →

Megosztás