ReGuLaR: A vizuális bizonyítékok jobb megértésével javítja az AI-modelleket
A ReGuLaR keretrendszer a vizuális bizonyítékokhoz köti a modell belső érvelését, javítva a pontosságot.

A Stanford és a Google Robotics kutatói bemutatták a ReGuLaR keretrendszert, amely a nagy látás-nyelv modellek (LVLM) vizuális érvelési képességeit hivatott javítani. A módszer a korábbi, szöveges magyarázatokon alapuló lánc-gondolat (Chain-of-thought, CoT) megközelítéseket fejleszti tovább, amelyek gyakran nem képesek megbízhatóan rögzíteni a folytonos vizuális információkat.
A ReGuLaR a vizuális bizonyítékok kompozicionális és relációs szerkezetére összpontosít. A keretrendszer egy ReGFormer nevű modult használ a betanítás során, hogy a modell figyelmét a kérdés szempontjából releváns objektumokra és azok egymáshoz való viszonyára irányítsa. Ezáltal a belső érvelés (latent reasoning) jobban kapcsolódik a vizuális tartalomhoz.
Kapcsolódó: LLM-logika
A látás-nyelv modellek új korszaka
Az új megközelítés támogatására a kutatók létrehozták a RGROUNDING-351K nevű, valós adatokon alapuló látás-nyelv adathalmazt. Ez az adathalmaz kulcsfontosságú objektumok köré rajzolt dobozokat (bounding box) és az objektumok közötti kapcsolatokat tartalmazza, ami elengedhetetlen a ReGuLaR hatékony betanításához.
Kapcsolódó: LLM-biztonság
Vizuális érvelés a gyakorlatban
A különféle benchmarkokon végzett kísérletek kimutatták, hogy a ReGuLaR következetesen felülmúlja a korábbi módszereket, és új, state-of-the-art teljesítményt ér el. A kutatók a kódot és a betanítási adatokat a publikáció elfogadása után, 2024. március 15-én nyilvánosan elérhetővé teszik a Google Robotics oldalán.
Kapcsolódó: ToolsRL keretrendszer