Kutatás2026. máj. 12.frissítve: 02:30

Új BalCapRL rendszerrel javítja az Apple a MLLM képleírások minőségét

A BalCapRL egy kiegyensúlyozott megerősítő tanulás (RL) alapú megközelítés, amely a képleírások minőségét optimalizálja, elkerülve a korábbi módszerek kompromisszumait.

Fotó: CDC / Unsplash

forrás: Apple ML·AI Forradalom szerk.·2026. május 12.

Megosztás

Új keretrendszert mutatott be az Apple ML a megerősítő tanuláson (RL) alapuló, multimodális nagyméretű nyelvi modellek (MLLM) képleírási feladatainak javítására — írja az Apple ML kutatása. A BalCapRL névre keresztelt rendszer a képleírások minőségét hivatott kiegyensúlyozottabban optimalizálni, kezelve a korábbi módszerek szűk fókuszát.

A képleírás az egyik legalapvetőbb feladat a számítógépes látásban, és a MLLM-ek megjelenésével egyre nagyobb figyelmet kap. A részletesebb és pontosabb leírások iránti igény miatt a kutatók egyre gyakrabban fordulnak a megerősítő tanuláshoz.

A képleírás minőségének optimalizálása

A meglévő RL-alapú módszerek és értékelési metrikák azonban gyakran csak a leírás minőségének egy szűk aspektusára koncentrálnak, ami kompromisszumokhoz vezet a kulcsfontosságú dimenziók között. A BalCapRL ezzel szemben egyidejűleg optimalizálja a hasznosság-tudatos korrektséget, a referenciák lefedettségét és a nyelvi minőséget.

A folyamatos optimalizálás hatékonysága

A folyamatos, többcélú jutalomformuláció hatékony optimalizálásához a GDPO-stílusú jutalom-független normalizálást alkalmazták a folyamatos értékű képleírási jutalmakra, ami jobb teljesítményt eredményezett a vanilla GRPO-hoz képest. Emellett bevezették a hosszúságfüggő jutalommaszkolást is, amely alkalmasabb hosszúsági büntetést biztosít a képleírásokhoz.

A LLaVA-1.5-7B, valamint a Qwen2.5-VL 3B és 7B alapmodelleken végzett tesztek során a BalCapRL módszer következetesen javította a képleírások minőségét. A különböző modelleken elért csúcsteljesítmény-növekedés +13,6 DCScore, +9,0 CaptionQA és +29,0 CapArena volt a Qwen2.5-VL 7B modell esetében 2024. március 10-én.

tetszett a cikk? oszd meg →

Megosztás