Kutatás2026. jún. 2.frissítve: 05:30

ReGuLaR: A vizuális bizonyítékok jobb megértésével javítja az AI-modelleket

A ReGuLaR keretrendszer a vizuális bizonyítékokhoz köti a modell belső érvelését, javítva a pontosságot.

Fotó: National Cancer Institute / Unsplash

forrás: ArXiv CV·AI Forradalom szerk.·2026. június 2.

Megosztás

A Stanford és a Google Robotics kutatói bemutatták a ReGuLaR keretrendszert, amely a nagy látás-nyelv modellek (LVLM) vizuális érvelési képességeit hivatott javítani. A módszer a korábbi, szöveges magyarázatokon alapuló lánc-gondolat (Chain-of-thought, CoT) megközelítéseket fejleszti tovább, amelyek gyakran nem képesek megbízhatóan rögzíteni a folytonos vizuális információkat.

A ReGuLaR a vizuális bizonyítékok kompozicionális és relációs szerkezetére összpontosít. A keretrendszer egy ReGFormer nevű modult használ a betanítás során, hogy a modell figyelmét a kérdés szempontjából releváns objektumokra és azok egymáshoz való viszonyára irányítsa. Ezáltal a belső érvelés (latent reasoning) jobban kapcsolódik a vizuális tartalomhoz.

Kapcsolódó: LLM-logika

A látás-nyelv modellek új korszaka

Az új megközelítés támogatására a kutatók létrehozták a RGROUNDING-351K nevű, valós adatokon alapuló látás-nyelv adathalmazt. Ez az adathalmaz kulcsfontosságú objektumok köré rajzolt dobozokat (bounding box) és az objektumok közötti kapcsolatokat tartalmazza, ami elengedhetetlen a ReGuLaR hatékony betanításához.

Kapcsolódó: LLM-biztonság

Vizuális érvelés a gyakorlatban

A különféle benchmarkokon végzett kísérletek kimutatták, hogy a ReGuLaR következetesen felülmúlja a korábbi módszereket, és új, state-of-the-art teljesítményt ér el. A kutatók a kódot és a betanítási adatokat a publikáció elfogadása után, 2024. március 15-én nyilvánosan elérhetővé teszik a Google Robotics oldalán.

Kapcsolódó: ToolsRL keretrendszer

tetszett a cikk? oszd meg →

Megosztás