VibeToken-Gen felbontásfüggetlen képgenerátor 64 tokennel 3.94 gFID‑et ér el
A preprint szerzői egy 32‑256 tokenből álló dinamikus sorozattal kódoló, felbontásfüggetlen tokenizálót fejlesztettek, amely a VibeToken névre hallgat.

A VibeToken-Gen a VibeToken tokenizálóra épül, és képes tetszőleges felbontású képeket előállítani — írja az arXiv.
A felbontásfüggetlen tokenizálás áttörése
A LlamaGenhez hasonló, fix‑felbontású autoregresszív modellek FLOP‑száma négyzetesen nő a felbontás növekedésével, ami a nagyobb képméretek esetén számottevő számítási költséget jelent.
Változó dimenziók a VibeToken‑nel
A VibeToken egy 1D Transformer‑alapú tokenizáló, amely 32‑256 tokenből álló, felhasználó‑szabályozható sorozattal kódolja a képeket, ezáltal felbontásfüggetlen és általánosítható különböző arányokra.
Állítólag a VibeToken‑Gen 1024×1024 képeket csak 64 token felhasználásával szintetizál, és 3.94 gFID‑et ér el; a diffusion‑alapú állapot‑a‑művészet alternatíva 1 024 tokennel 5.87 gFID‑et produkál.
A VibeToken‑Gen 3.94 gFID‑et ért el a preprintben bemutatott teljesítményteszten 1024×1024 képméretnél, a tesztet a szerzők saját adathalmazukon végezték, 2024. március 15-én tették közzé az arXiv-en.