Frissítve: 1 órája·Ma: 9
Kutatás
AI által generált szöveg

Új ToolsRL keretrendszerrel javul a vizuális érvelés a LLM-eknél

A ToolsRL keretrendszer kétlépcsős megerősítéses tanulási (RL) folyamatot alkalmaz, amelyben a modellek először az eszközhasználatot sajátítják el, majd a vizuális érvelési feladatokat.

Új ToolsRL keretrendszerrel javul a vizuális érvelés a LLM-eknél
Fotó: Jason Leung / Unsplash
Forrás: ArXiv CVSzerző: AI Forradalom szerk.
Megosztás

A multimodális nagyméretű nyelvi modellek (MLLM-ek) vizuális érvelési képességeit javíthatja egy új, ToolsRL (Tool-supervised Reinforcement Learning) nevű keretrendszer — írja az ArXiv CV-n megjelent tanulmány.

A kutatók szerint a modellek gyakran ritkán hívnak meg eszközöket, és nehezen alakítanak ki koherens, többlépéses eszközhasználati láncokat, amelyek a komplex vizuális érveléshez szükségesek. A ToolsRL célja, hogy ezt a hiányosságot orvosolja a megerősítéses tanulás (RL) során bevezetett közvetlen eszközfelügyelettel.

A rendszer egyszerű, natív és értelmezhető vizuális eszközökre fókuszál, mint például a nagyítás, forgatás, tükrözés és pont/vonal rajzolás. Ezekhez az eszközökhöz könnyen gyűjthető az eszközfelügyelet. A fejlesztett megerősítéses tanulási tanterv első szakasza kizárólag eszközspecifikus jutalmakkal optimalizálódik, míg a második szakasz a pontosságra fókuszáló jutalmakkal edződik, miközben már engedélyezi az eszközök meghívását.

Ez a módszer biztosítja, hogy az eszközhívási képesség elsajátítása még azelőtt megtörténjen, hogy a modellek az eszközöket vizuális érvelési feladatok elvégzésére használnák. Ezzel elkerülhető a heterogén feladatok közötti optimalizálási konfliktus. A tanulmány kísérletei szerint a ToolsRL jelentősen javítja a modellek vizuális érvelési képességeit.

Kétlépcsős tanulási folyamat

A ToolsRL keretrendszer integrálja a standard feladatpontossági jutalmakat a közvetlen eszközfelügyelettel a RL betanítási folyamata során. Ez a megközelítés felülmúlja mind a SFT-alapú, mind a meglévő RL-alapú eszközhasználati betanítási folyamatok korlátait. A kutatók szerint a ToolsRL jelentős előrelépést jelent a vizuális érvelési feladatok megoldásában a MLLM-ek számára.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom