Új APMPO rendszerrel javul a LLM-ek érvelési képessége – dinamikus optimalizálás érkezik
Az Adaptive Power-Mean Policy Optimization (APMPO) a Reinforcement Learning with Verifiable Rewards (RLVR) keretrendszerre épül, de a statikus optimalizálási sémák korlátait hivatott feloldani.

Új módszert dolgoztak ki a nagy nyelvi modellek (LLM) érvelési képességeinek javítására: az Adaptive Power-Mean Policy Optimization (APMPO) nevű algoritmus dinamikusan alkalmazkodik a modellek fejlődő logikai képességeihez — írja az ArXiv-en megjelent tanulmány.
A kutatók szerint a meglévő Reinforcement Learning with Verifiable Rewards (RLVR) alapú rendszerek statikus optimalizálási sémái nem képesek lépést tartani a modellek változó igényeivel. Az APMPO két fő újítást vezet be: a Power-Mean Policy Optimization (PMPO) és a Feedback-Adaptive Clipping (FAC) eljárásokat.
A logikai képességek labirintusában
A PMPO egy általánosított teljesítmény-átlag célfüggvényt alkalmaz, amely lehetővé teszi a modell számára, hogy adaptívan váltson az aritmetikai átlag jel-erősítő viselkedése és a geometriai átlag konzisztenciát biztosító viselkedése között. Ezzel párhuzamosan a FAC valós idejű jutalomstatisztikák alapján állítja be a clipping határokat, felülmúlva a statikus mechanizmusok korlátait.
A mesterséges intelligencia új távlatokban
Ezek az újítások jelentősen javítják a tanulási dinamikát és az érvelési teljesítményt a LLM-ek esetében. Az APMPO így hatékonyabb és rugalmasabb megoldást kínál a mesterséges intelligencia modellek logikai képességeinek fejlesztésére az ArXiv 2024. március 10-i publikációjában.