Foveated Reasoner: új keretrendszerrel javítja a VLM-ek vizuális fókuszát az ArXiv CV
A modell az emberi látáshoz hasonlóan, alacsony felbontású képpel indul, majd csak szükség esetén fókuszál a releváns részletekre, ezzel csökkentve a vizuális tokenek számát.

Új keretrendszert mutatott be az ArXiv CV, amely a foveation elvén alapulva javítja a vizuális nyelvi modellek (VLM) hatékonyságát — írja a kutatás. A Foveated Reasoner nevű módszer a nagy felbontású képek feldolgozásakor fellépő magas számítási terhelést enyhíti.
A kutatók szerint az emberi látás is hasonlóan működik: egy durva áttekintés után dönti el, hova nézzen, majd szelektíven gyűjt be részletesebb információkat. A Foveated Reasoner ezt a folyamatot utánozza, egyetlen dekódolási folyamaton belül egyesíti a foveationt és a következtetést.
A modell alacsony felbontású nézettel indul, és csak akkor aktiválja a foveationt, amikor arra szükség van. Ekkor a kiválasztott régiókból nagy felbontású bizonyítékokat gyűjt be, és azokat visszatáplálja ugyanabba a dekódolási folyamatba. A betanítás kétlépcsős folyamatban zajlik: először felügyelt tanulással indítják a foveation viselkedést, majd megerősítéses tanulással javítják a bizonyítékgyűjtést és a feladat pontosságát, miközben elkerülik a triviális „mindent látni” megoldásokat.
A kísérletek azt mutatják, hogy a módszer hatékony foveation stratégiákat tanul, ezzel optimalizálva a VLM-ek működését. A Foveated Reasoner keretrendszerrel a vizuális nyelvi modellek kevesebb számítási kapacitással is pontosabb eredményeket érhetnek el.