8,7-szer gyorsabb képfeldolgozást ígér a TaTok új tokenizációs módszer
A jelenlegi kép-tokenizációs eljárások gyakran redundanciát vagy információvesztést okoznak, de a TaTok ezt a problémát orvosolja, különösen a hosszú képszekvenciák feldolgozásánál.

Pontos és hatékony diszkrét kép-tokenizációra van szükség a hosszú képszekvenciák feldolgozásához, a jelenlegi módszerek azonban mereven tömörítik a tartalmat, figyelmen kívül hagyva a képek változó információsűrűségét — írja az arXiv-ra feltöltött tanulmány.
A kutatók szerint a meglévő eljárások két fő hiányossággal küzdenek: az információ elégtelen, ha csak patch tokenekkel próbálják rekonstruálni a képeket, és redundancia is van a patch tokenek között.
A szőnyeg szálai
A TaTok nevű új keretrendszer erre kínál megoldást, amely globális tokeneket vezet be a patch tokenek közötti kölcsönös információ modellezésére.
Képfeldolgozás mozaikjai
A TaTok a redundancia kiküszöbölésére egy Dynamic Token Filtering (DTF) algoritmust is alkalmaz, amely a kumulatív feltételes entrópián alapul.
A kísérletek megerősítik, hogy a TaTok élvonalbeli teljesítményt nyújt, 1,3-szoros gFID javulást és 8,7-szeres következtetési sebesség növekedést eredményez — állítják a kutatók az arXiv:2605.16384v1 számú előnyomtatott tanulmányban.
A TaTok módszer az arXiv:2605.16384v1 számú tanulmányban 2024. május 29-én lesz elérhető.