Új ToolsRL keretrendszerrel javul a vizuális érvelés a LLM-eknél
A ToolsRL keretrendszer kétlépcsős megerősítéses tanulási (RL) folyamatot alkalmaz, amelyben a modellek először az eszközhasználatot sajátítják el, majd a vizuális érvelési feladatokat.

A multimodális nagyméretű nyelvi modellek (MLLM-ek) vizuális érvelési képességeit javíthatja egy új, ToolsRL (Tool-supervised Reinforcement Learning) nevű keretrendszer — írja az ArXiv CV-n megjelent tanulmány.
A kutatók szerint a modellek gyakran ritkán hívnak meg eszközöket, és nehezen alakítanak ki koherens, többlépéses eszközhasználati láncokat, amelyek a komplex vizuális érveléshez szükségesek. A ToolsRL célja, hogy ezt a hiányosságot orvosolja a megerősítéses tanulás (RL) során bevezetett közvetlen eszközfelügyelettel.
A rendszer egyszerű, natív és értelmezhető vizuális eszközökre fókuszál, mint például a nagyítás, forgatás, tükrözés és pont/vonal rajzolás. Ezekhez az eszközökhöz könnyen gyűjthető az eszközfelügyelet. A fejlesztett megerősítéses tanulási tanterv első szakasza kizárólag eszközspecifikus jutalmakkal optimalizálódik, míg a második szakasz a pontosságra fókuszáló jutalmakkal edződik, miközben már engedélyezi az eszközök meghívását.
Ez a módszer biztosítja, hogy az eszközhívási képesség elsajátítása még azelőtt megtörténjen, hogy a modellek az eszközöket vizuális érvelési feladatok elvégzésére használnák. Ezzel elkerülhető a heterogén feladatok közötti optimalizálási konfliktus. A tanulmány kísérletei szerint a ToolsRL jelentősen javítja a modellek vizuális érvelési képességeit.
Kétlépcsős tanulási folyamat
A ToolsRL keretrendszer integrálja a standard feladatpontossági jutalmakat a közvetlen eszközfelügyelettel a RL betanítási folyamata során. Ez a megközelítés felülmúlja mind a SFT-alapú, mind a meglévő RL-alapú eszközhasználati betanítási folyamatok korlátait. A kutatók szerint a ToolsRL jelentős előrelépést jelent a vizuális érvelési feladatok megoldásában a MLLM-ek számára.