Kutatás2026. máj. 30.frissítve: 11:10

GCPO-val pontosítják a modelltanítást — token-szintű visszajelzést ad

A Guidance Contrastive Policy Optimization (GCPO) új algoritmus per-token visszajelzést ad, javítva a szöveg-kép generálást és az érvelést.

Fotó: Sean Benesh / Unsplash

forrás: ArXiv CV·AI Forradalom szerk.·2026. május 30.

Megosztás

A korábbi mintaalapú visszajelzést adó reinforcement learning módszerekkel szemben a Guidance Contrastive Policy Optimization (GCPO) token-szintű visszajelzést tesz lehetővé. Az új algoritmus pozitív és negatív utasítások kontrasztálásával határozza meg az egyes tokenek hozzájárulását a végeredményhez, így pontosabb tanulási jelzést biztosít.

A GCPO a korábbi GRPO és DAPO módszerekhez képest kiemelten kezeli a szemantikailag releváns területeket. Szöveg-kép generálásnál a vizuális elemeket a hozzájuk tartozó szöveggel összhangban emeli ki, míg láncolat-gondolkodás (chain-of-thought) feladatoknál a kritikus kulcsszavakra fókuszál.

Kapcsolódó: diffúziós modellek

A modelltanítás új dimenziója

A kutatók kiterjedt kísérleteket végeztek, amelyek során a GCPO konzisztensen felülmúlta a GRPO és DAPO alapmodelleket mind a szöveg-kép generálási, mind a láncolat-gondolkodási benchmarkokon. Ez igazolja a GCPO hatékonyságát, mint általános és skálázható optimalizálási stratégiát diszkrét politikai tanuláshoz.

Kapcsolódó: optimalizálási feladatok

A GCPO hatékonysága

A GCPO-t Shufan Li és négy másik kutató mutatta be egy új, ArXivon publikált tanulmányban. A módszer célja, hogy finomhangolja a modellek válaszait, különösen olyan területeken, ahol az apró eltérések is jelentős hatással lehetnek a végeredményre. A GCPO algoritmust a DeepMind és a Google kutatói 2024-ben tervezik integrálni a saját modelljeikbe.

Kapcsolódó: VLM-ügynökök fejlesztése

tetszett a cikk? oszd meg →

Megosztás