Frissítve: 2 órája·Ma: 14
Kutatás
AI által generált szöveg

Pixel-szintű vizuális megértést hozhat a képpont- és szószimbólumokat egyesítő új AI modell

A jelenlegi nyílt forráskódú multimodális modellek nehezen ismerik fel a képeken lévő apró szövegeket vagy számokat, ezen a problémán segíthet az új megközelítés.

Pixel-szintű vizuális megértést hozhat a képpont- és szószimbólumokat egyesítő új AI modell
Fotó: Triyansh Gill / Unsplash
Forrás: ArXiv CVSzerző: AI Forradalom szerk.
Megosztás

A jelenlegi élvonalbeli nyílt forráskódú multimodális modellek, amelyek Vision Transformer (ViT) architektúrát használnak – például a CLIP vagy a SigLIP alapúak – korlátozottan képesek a részletes vizuális megértésre. Különösen nehezen ismerik fel a képeken található apró szövegeket vagy számokat — írja az arXiv-on megjelent tanulmány.

Egy új modellt javasoltak, amely egyesíti a képpont-szimbólumokat (pix token) és a szószimbólumokat (word token) egyetlen generatív nyelvi modellben. A kutatók szerint ez a megközelítés jelentősen javíthatja a vizuális részletek feldolgozását.

A szemléletváltás kulcsa

Az új modell több kulcsfontosságú jellemzővel is rendelkezik. Minden egyes képpontnak saját token beágyazása van, emellett színösszevonást (color folding), globális feltételes figyelem-közelítést (global conditional attention approximation) és felügyelet nélküli kép-előképzést (image unsupervised pretraining) alkalmaz. Ezek a technikai megoldások segítik a modellt abban, hogy mélyebben megértse a vizuális információkat.

A kutatók felügyelet nélküli kép-előképzési kísérleteket végeztek az új modellel, hogy feltárják annak potenciálját. Az arXiv:2605.14028v1 számú előnyomtatott tanulmányban bemutatott eredmények azt mutatják, hogy a modell még kis méretű konfigurációk esetén is jó teljesítményt nyújt.

Vizuális felfedezés

Az új modell a 2024. január 15-én megjelent tanulmány szerint képes volt azonosítani a képeken szereplő szöveget, és a vizuális részletek feldolgozásában is jelentős előrelépést mutatott.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom