GCPO-val pontosítják a modelltanítást — token-szintű visszajelzést ad
A Guidance Contrastive Policy Optimization (GCPO) új algoritmus per-token visszajelzést ad, javítva a szöveg-kép generálást és az érvelést.

A korábbi mintaalapú visszajelzést adó reinforcement learning módszerekkel szemben a Guidance Contrastive Policy Optimization (GCPO) token-szintű visszajelzést tesz lehetővé. Az új algoritmus pozitív és negatív utasítások kontrasztálásával határozza meg az egyes tokenek hozzájárulását a végeredményhez, így pontosabb tanulási jelzést biztosít.
A GCPO a korábbi GRPO és DAPO módszerekhez képest kiemelten kezeli a szemantikailag releváns területeket. Szöveg-kép generálásnál a vizuális elemeket a hozzájuk tartozó szöveggel összhangban emeli ki, míg láncolat-gondolkodás (chain-of-thought) feladatoknál a kritikus kulcsszavakra fókuszál.
Kapcsolódó: diffúziós modellek
A modelltanítás új dimenziója
A kutatók kiterjedt kísérleteket végeztek, amelyek során a GCPO konzisztensen felülmúlta a GRPO és DAPO alapmodelleket mind a szöveg-kép generálási, mind a láncolat-gondolkodási benchmarkokon. Ez igazolja a GCPO hatékonyságát, mint általános és skálázható optimalizálási stratégiát diszkrét politikai tanuláshoz.
Kapcsolódó: optimalizálási feladatok
A GCPO hatékonysága
A GCPO-t Shufan Li és négy másik kutató mutatta be egy új, ArXivon publikált tanulmányban. A módszer célja, hogy finomhangolja a modellek válaszait, különösen olyan területeken, ahol az apró eltérések is jelentős hatással lehetnek a végeredményre. A GCPO algoritmust a DeepMind és a Google kutatói 2024-ben tervezik integrálni a saját modelljeikbe.
Kapcsolódó: VLM-ügynökök fejlesztése