Új APMPO rendszerrel javul a LLM-ek érvelési képessége – dinamikus optimalizálás érkezik

Az Adaptive Power-Mean Policy Optimization (APMPO) a Reinforcement Learning with Verifiable Rewards (RLVR) keretrendszerre épül, de a statikus optimalizálási sémák korlátait hivatott feloldani.

Fotó: National Cancer Institute / Unsplash

Forrás: ArXiv NLP•Szerző: AI Forradalom szerk.•2026. május 9.

Megosztás

Új módszert dolgoztak ki a nagy nyelvi modellek (LLM) érvelési képességeinek javítására: az Adaptive Power-Mean Policy Optimization (APMPO) nevű algoritmus dinamikusan alkalmazkodik a modellek fejlődő logikai képességeihez — írja az ArXiv-en megjelent tanulmány.

A kutatók szerint a meglévő Reinforcement Learning with Verifiable Rewards (RLVR) alapú rendszerek statikus optimalizálási sémái nem képesek lépést tartani a modellek változó igényeivel. Az APMPO két fő újítást vezet be: a Power-Mean Policy Optimization (PMPO) és a Feedback-Adaptive Clipping (FAC) eljárásokat.

A logikai képességek labirintusában

A PMPO egy általánosított teljesítmény-átlag célfüggvényt alkalmaz, amely lehetővé teszi a modell számára, hogy adaptívan váltson az aritmetikai átlag jel-erősítő viselkedése és a geometriai átlag konzisztenciát biztosító viselkedése között. Ezzel párhuzamosan a FAC valós idejű jutalomstatisztikák alapján állítja be a clipping határokat, felülmúlva a statikus mechanizmusok korlátait.

A mesterséges intelligencia új távlatokban

Ezek az újítások jelentősen javítják a tanulási dinamikát és az érvelési teljesítményt a LLM-ek esetében. Az APMPO így hatékonyabb és rugalmasabb megoldást kínál a mesterséges intelligencia modellek logikai képességeinek fejlesztésére az ArXiv 2024. március 10-i publikációjában.