Foveated Reasoner: új keretrendszerrel javítja a VLM-ek vizuális fókuszát az ArXiv CV

A modell az emberi látáshoz hasonlóan, alacsony felbontású képpel indul, majd csak szükség esetén fókuszál a releváns részletekre, ezzel csökkentve a vizuális tokenek számát.

Fotó: Claudio Schwarz / Unsplash

Forrás: ArXiv CV•Szerző: AI Forradalom szerk.•2026. április 24.

Megosztás

Új keretrendszert mutatott be az ArXiv CV, amely a foveation elvén alapulva javítja a vizuális nyelvi modellek (VLM) hatékonyságát — írja a kutatás. A Foveated Reasoner nevű módszer a nagy felbontású képek feldolgozásakor fellépő magas számítási terhelést enyhíti.

A kutatók szerint az emberi látás is hasonlóan működik: egy durva áttekintés után dönti el, hova nézzen, majd szelektíven gyűjt be részletesebb információkat. A Foveated Reasoner ezt a folyamatot utánozza, egyetlen dekódolási folyamaton belül egyesíti a foveationt és a következtetést.

A modell alacsony felbontású nézettel indul, és csak akkor aktiválja a foveationt, amikor arra szükség van. Ekkor a kiválasztott régiókból nagy felbontású bizonyítékokat gyűjt be, és azokat visszatáplálja ugyanabba a dekódolási folyamatba. A betanítás kétlépcsős folyamatban zajlik: először felügyelt tanulással indítják a foveation viselkedést, majd megerősítéses tanulással javítják a bizonyítékgyűjtést és a feladat pontosságát, miközben elkerülik a triviális „mindent látni” megoldásokat.

A kísérletek azt mutatják, hogy a módszer hatékony foveation stratégiákat tanul, ezzel optimalizálva a VLM-ek működését. A Foveated Reasoner keretrendszerrel a vizuális nyelvi modellek kevesebb számítási kapacitással is pontosabb eredményeket érhetnek el.