ÉlőUtoljára: 1 órájaMa: 18
Kutatásfrissítve: 09:10

GCPO-val pontosítják a modelltanítást — token-szintű visszajelzést ad

A Guidance Contrastive Policy Optimization (GCPO) új algoritmus per-token visszajelzést ad, javítva a szöveg-kép generálást és az érvelést.

GCPO-val pontosítják a modelltanítást — token-szintű visszajelzést ad
Fotó: Fotó: Lusia Komala Widiastuti / Unsplash
forrás: ArXiv CV·AI Forradalom szerk.·
Megosztás

A korábbi mintaalapú visszajelzést adó reinforcement learning módszerekkel szemben a Guidance Contrastive Policy Optimization (GCPO) token-szintű visszajelzést tesz lehetővé. Az új algoritmus pozitív és negatív utasítások kontrasztálásával határozza meg az egyes tokenek hozzájárulását a végeredményhez, így pontosabb tanulási jelzést biztosít.

A GCPO a korábbi GRPO és DAPO módszerekhez képest kiemelten kezeli a szemantikailag releváns területeket. Szöveg-kép generálásnál a vizuális elemeket a hozzájuk tartozó szöveggel összhangban emeli ki, míg láncolat-gondolkodás (chain-of-thought) feladatoknál a kritikus kulcsszavakra fókuszál.

Kapcsolódó: diffúziós modellek

A modelltanítás új dimenziója

A kutatók kiterjedt kísérleteket végeztek, amelyek során a GCPO konzisztensen felülmúlta a GRPO és DAPO alapmodelleket mind a szöveg-kép generálási, mind a láncolat-gondolkodási benchmarkokon. Ez igazolja a GCPO hatékonyságát, mint általános és skálázható optimalizálási stratégiát diszkrét politikai tanuláshoz.

Kapcsolódó: optimalizálási feladatok

A GCPO hatékonysága

A GCPO-t Shufan Li és négy másik kutató mutatta be egy új, ArXivon publikált tanulmányban. A módszer célja, hogy finomhangolja a modellek válaszait, különösen olyan területeken, ahol az apró eltérések is jelentős hatással lehetnek a végeredményre. A GCPO algoritmust a DeepMind és a Google kutatói 2024-ben tervezik integrálni a saját modelljeikbe.

Kapcsolódó: VLM-ügynökök fejlesztése

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom