ÉlőUtoljára: 46 perceMa: 8
Kutatásfrissítve: 03:30

ReGuLaR: A vizuális bizonyítékok jobb megértésével javítja az AI-modelleket

A ReGuLaR keretrendszer a vizuális bizonyítékokhoz köti a modell belső érvelését, javítva a pontosságot.

ReGuLaR: A vizuális bizonyítékok jobb megértésével javítja az AI-modelleket
Fotó: Fotó: National Cancer Institute / Unsplash
forrás: ArXiv CV·AI Forradalom szerk.·
Megosztás

A Stanford és a Google Robotics kutatói bemutatták a ReGuLaR keretrendszert, amely a nagy látás-nyelv modellek (LVLM) vizuális érvelési képességeit hivatott javítani. A módszer a korábbi, szöveges magyarázatokon alapuló lánc-gondolat (Chain-of-thought, CoT) megközelítéseket fejleszti tovább, amelyek gyakran nem képesek megbízhatóan rögzíteni a folytonos vizuális információkat.

A ReGuLaR a vizuális bizonyítékok kompozicionális és relációs szerkezetére összpontosít. A keretrendszer egy ReGFormer nevű modult használ a betanítás során, hogy a modell figyelmét a kérdés szempontjából releváns objektumokra és azok egymáshoz való viszonyára irányítsa. Ezáltal a belső érvelés (latent reasoning) jobban kapcsolódik a vizuális tartalomhoz.

Kapcsolódó: LLM-logika

A látás-nyelv modellek új korszaka

Az új megközelítés támogatására a kutatók létrehozták a RGROUNDING-351K nevű, valós adatokon alapuló látás-nyelv adathalmazt. Ez az adathalmaz kulcsfontosságú objektumok köré rajzolt dobozokat (bounding box) és az objektumok közötti kapcsolatokat tartalmazza, ami elengedhetetlen a ReGuLaR hatékony betanításához.

Kapcsolódó: LLM-biztonság

Vizuális érvelés a gyakorlatban

A különféle benchmarkokon végzett kísérletek kimutatták, hogy a ReGuLaR következetesen felülmúlja a korábbi módszereket, és új, state-of-the-art teljesítményt ér el. A kutatók a kódot és a betanítási adatokat a publikáció elfogadása után, 2024. március 15-én nyilvánosan elérhetővé teszik a Google Robotics oldalán.

Kapcsolódó: ToolsRL keretrendszer

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom