Új BalCapRL rendszerrel javítja az Apple a MLLM képleírások minőségét
A BalCapRL egy kiegyensúlyozott megerősítő tanulás (RL) alapú megközelítés, amely a képleírások minőségét optimalizálja, elkerülve a korábbi módszerek kompromisszumait.

Új keretrendszert mutatott be az Apple ML a megerősítő tanuláson (RL) alapuló, multimodális nagyméretű nyelvi modellek (MLLM) képleírási feladatainak javítására — írja az Apple ML kutatása. A BalCapRL névre keresztelt rendszer a képleírások minőségét hivatott kiegyensúlyozottabban optimalizálni, kezelve a korábbi módszerek szűk fókuszát.
A képleírás az egyik legalapvetőbb feladat a számítógépes látásban, és a MLLM-ek megjelenésével egyre nagyobb figyelmet kap. A részletesebb és pontosabb leírások iránti igény miatt a kutatók egyre gyakrabban fordulnak a megerősítő tanuláshoz.
A képleírás minőségének optimalizálása
A meglévő RL-alapú módszerek és értékelési metrikák azonban gyakran csak a leírás minőségének egy szűk aspektusára koncentrálnak, ami kompromisszumokhoz vezet a kulcsfontosságú dimenziók között. A BalCapRL ezzel szemben egyidejűleg optimalizálja a hasznosság-tudatos korrektséget, a referenciák lefedettségét és a nyelvi minőséget.
A folyamatos optimalizálás hatékonysága
A folyamatos, többcélú jutalomformuláció hatékony optimalizálásához a GDPO-stílusú jutalom-független normalizálást alkalmazták a folyamatos értékű képleírási jutalmakra, ami jobb teljesítményt eredményezett a vanilla GRPO-hoz képest. Emellett bevezették a hosszúságfüggő jutalommaszkolást is, amely alkalmasabb hosszúsági büntetést biztosít a képleírásokhoz.
A LLaVA-1.5-7B, valamint a Qwen2.5-VL 3B és 7B alapmodelleken végzett tesztek során a BalCapRL módszer következetesen javította a képleírások minőségét. A különböző modelleken elért csúcsteljesítmény-növekedés +13,6 DCScore, +9,0 CaptionQA és +29,0 CapArena volt a Qwen2.5-VL 7B modell esetében 2024. március 10-én.