Kutatás2026. máj. 19.frissítve: 04:50

8,7-szer gyorsabb képfeldolgozást ígér a TaTok új tokenizációs módszer

A jelenlegi kép-tokenizációs eljárások gyakran redundanciát vagy információvesztést okoznak, de a TaTok ezt a problémát orvosolja, különösen a hosszú képszekvenciák feldolgozásánál.

Fotó: Fotó: D koi / Unsplash

forrás: ArXiv CV·AI Forradalom szerk.·2026. május 19.

Megosztás

Pontos és hatékony diszkrét kép-tokenizációra van szükség a hosszú képszekvenciák feldolgozásához, a jelenlegi módszerek azonban mereven tömörítik a tartalmat, figyelmen kívül hagyva a képek változó információsűrűségét — írja az arXiv-ra feltöltött tanulmány.

A kutatók szerint a meglévő eljárások két fő hiányossággal küzdenek: az információ elégtelen, ha csak patch tokenekkel próbálják rekonstruálni a képeket, és redundancia is van a patch tokenek között.

A szőnyeg szálai

A TaTok nevű új keretrendszer erre kínál megoldást, amely globális tokeneket vezet be a patch tokenek közötti kölcsönös információ modellezésére.

Képfeldolgozás mozaikjai

A TaTok a redundancia kiküszöbölésére egy Dynamic Token Filtering (DTF) algoritmust is alkalmaz, amely a kumulatív feltételes entrópián alapul.

A kísérletek megerősítik, hogy a TaTok élvonalbeli teljesítményt nyújt, 1,3-szoros gFID javulást és 8,7-szeres következtetési sebesség növekedést eredményez — állítják a kutatók az arXiv:2605.16384v1 számú előnyomtatott tanulmányban.

A TaTok módszer az arXiv:2605.16384v1 számú tanulmányban 2024. május 29-én lesz elérhető.

tetszett a cikk? oszd meg →

Megosztás