Frissítve: 17 perce·Ma: 10
Kutatás
AI által generált szöveg

Foveated Reasoner: új keretrendszerrel javítja a VLM-ek vizuális fókuszát az ArXiv CV

A modell az emberi látáshoz hasonlóan, alacsony felbontású képpel indul, majd csak szükség esetén fókuszál a releváns részletekre, ezzel csökkentve a vizuális tokenek számát.

Foveated Reasoner: új keretrendszerrel javítja a VLM-ek vizuális fókuszát az ArXiv CV
Fotó: Claudio Schwarz / Unsplash
Forrás: ArXiv CVSzerző: AI Forradalom szerk.
Megosztás

Új keretrendszert mutatott be az ArXiv CV, amely a foveation elvén alapulva javítja a vizuális nyelvi modellek (VLM) hatékonyságát — írja a kutatás. A Foveated Reasoner nevű módszer a nagy felbontású képek feldolgozásakor fellépő magas számítási terhelést enyhíti.

A kutatók szerint az emberi látás is hasonlóan működik: egy durva áttekintés után dönti el, hova nézzen, majd szelektíven gyűjt be részletesebb információkat. A Foveated Reasoner ezt a folyamatot utánozza, egyetlen dekódolási folyamaton belül egyesíti a foveationt és a következtetést.

A modell alacsony felbontású nézettel indul, és csak akkor aktiválja a foveationt, amikor arra szükség van. Ekkor a kiválasztott régiókból nagy felbontású bizonyítékokat gyűjt be, és azokat visszatáplálja ugyanabba a dekódolási folyamatba. A betanítás kétlépcsős folyamatban zajlik: először felügyelt tanulással indítják a foveation viselkedést, majd megerősítéses tanulással javítják a bizonyítékgyűjtést és a feladat pontosságát, miközben elkerülik a triviális „mindent látni” megoldásokat.

A kísérletek azt mutatják, hogy a módszer hatékony foveation stratégiákat tanul, ezzel optimalizálva a VLM-ek működését. A Foveated Reasoner keretrendszerrel a vizuális nyelvi modellek kevesebb számítási kapacitással is pontosabb eredményeket érhetnek el.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom