Frissítve: 1 órája·Ma: 15
Kutatás
AI által generált szöveg

Új BalCapRL rendszerrel javítja az Apple a MLLM képleírások minőségét

A BalCapRL egy kiegyensúlyozott megerősítő tanulás (RL) alapú megközelítés, amely a képleírások minőségét optimalizálja, elkerülve a korábbi módszerek kompromisszumait.

Új BalCapRL rendszerrel javítja az Apple a MLLM képleírások minőségét
Fotó: CDC / Unsplash
Forrás: Apple MLSzerző: AI Forradalom szerk.
Megosztás

Új keretrendszert mutatott be az Apple ML a megerősítő tanuláson (RL) alapuló, multimodális nagyméretű nyelvi modellek (MLLM) képleírási feladatainak javítására — írja az Apple ML kutatása. A BalCapRL névre keresztelt rendszer a képleírások minőségét hivatott kiegyensúlyozottabban optimalizálni, kezelve a korábbi módszerek szűk fókuszát.

A képleírás az egyik legalapvetőbb feladat a számítógépes látásban, és a MLLM-ek megjelenésével egyre nagyobb figyelmet kap. A részletesebb és pontosabb leírások iránti igény miatt a kutatók egyre gyakrabban fordulnak a megerősítő tanuláshoz.

A képleírás minőségének optimalizálása

A meglévő RL-alapú módszerek és értékelési metrikák azonban gyakran csak a leírás minőségének egy szűk aspektusára koncentrálnak, ami kompromisszumokhoz vezet a kulcsfontosságú dimenziók között. A BalCapRL ezzel szemben egyidejűleg optimalizálja a hasznosság-tudatos korrektséget, a referenciák lefedettségét és a nyelvi minőséget.

A folyamatos optimalizálás hatékonysága

A folyamatos, többcélú jutalomformuláció hatékony optimalizálásához a GDPO-stílusú jutalom-független normalizálást alkalmazták a folyamatos értékű képleírási jutalmakra, ami jobb teljesítményt eredményezett a vanilla GRPO-hoz képest. Emellett bevezették a hosszúságfüggő jutalommaszkolást is, amely alkalmasabb hosszúsági büntetést biztosít a képleírásokhoz.

A LLaVA-1.5-7B, valamint a Qwen2.5-VL 3B és 7B alapmodelleken végzett tesztek során a BalCapRL módszer következetesen javította a képleírások minőségét. A különböző modelleken elért csúcsteljesítmény-növekedés +13,6 DCScore, +9,0 CaptionQA és +29,0 CapArena volt a Qwen2.5-VL 7B modell esetében 2024. március 10-én.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom