ÉlőUtoljára: 1 órájaMa: 18
Kutatásfrissítve: 04:50

8,7-szer gyorsabb képfeldolgozást ígér a TaTok új tokenizációs módszer

A jelenlegi kép-tokenizációs eljárások gyakran redundanciát vagy információvesztést okoznak, de a TaTok ezt a problémát orvosolja, különösen a hosszú képszekvenciák feldolgozásánál.

8,7-szer gyorsabb képfeldolgozást ígér a TaTok új tokenizációs módszer
Fotó: Fotó: D koi / Unsplash
forrás: ArXiv CV·AI Forradalom szerk.·
Megosztás

Pontos és hatékony diszkrét kép-tokenizációra van szükség a hosszú képszekvenciák feldolgozásához, a jelenlegi módszerek azonban mereven tömörítik a tartalmat, figyelmen kívül hagyva a képek változó információsűrűségét — írja az arXiv-ra feltöltött tanulmány.

A kutatók szerint a meglévő eljárások két fő hiányossággal küzdenek: az információ elégtelen, ha csak patch tokenekkel próbálják rekonstruálni a képeket, és redundancia is van a patch tokenek között.

A szőnyeg szálai

A TaTok nevű új keretrendszer erre kínál megoldást, amely globális tokeneket vezet be a patch tokenek közötti kölcsönös információ modellezésére.

Képfeldolgozás mozaikjai

A TaTok a redundancia kiküszöbölésére egy Dynamic Token Filtering (DTF) algoritmust is alkalmaz, amely a kumulatív feltételes entrópián alapul.

A kísérletek megerősítik, hogy a TaTok élvonalbeli teljesítményt nyújt, 1,3-szoros gFID javulást és 8,7-szeres következtetési sebesség növekedést eredményez — állítják a kutatók az arXiv:2605.16384v1 számú előnyomtatott tanulmányban.

A TaTok módszer az arXiv:2605.16384v1 számú tanulmányban 2024. május 29-én lesz elérhető.

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom