Frissítve: 17 perce·Ma: 9
Kutatás
AI által generált szöveg

Új APMPO rendszerrel javul a LLM-ek érvelési képessége – dinamikus optimalizálás érkezik

Az Adaptive Power-Mean Policy Optimization (APMPO) a Reinforcement Learning with Verifiable Rewards (RLVR) keretrendszerre épül, de a statikus optimalizálási sémák korlátait hivatott feloldani.

Új APMPO rendszerrel javul a LLM-ek érvelési képessége – dinamikus optimalizálás érkezik
Fotó: National Cancer Institute / Unsplash
Forrás: ArXiv NLPSzerző: AI Forradalom szerk.
Megosztás

Új módszert dolgoztak ki a nagy nyelvi modellek (LLM) érvelési képességeinek javítására: az Adaptive Power-Mean Policy Optimization (APMPO) nevű algoritmus dinamikusan alkalmazkodik a modellek fejlődő logikai képességeihez — írja az ArXiv-en megjelent tanulmány.

A kutatók szerint a meglévő Reinforcement Learning with Verifiable Rewards (RLVR) alapú rendszerek statikus optimalizálási sémái nem képesek lépést tartani a modellek változó igényeivel. Az APMPO két fő újítást vezet be: a Power-Mean Policy Optimization (PMPO) és a Feedback-Adaptive Clipping (FAC) eljárásokat.

A logikai képességek labirintusában

A PMPO egy általánosított teljesítmény-átlag célfüggvényt alkalmaz, amely lehetővé teszi a modell számára, hogy adaptívan váltson az aritmetikai átlag jel-erősítő viselkedése és a geometriai átlag konzisztenciát biztosító viselkedése között. Ezzel párhuzamosan a FAC valós idejű jutalomstatisztikák alapján állítja be a clipping határokat, felülmúlva a statikus mechanizmusok korlátait.

A mesterséges intelligencia új távlatokban

Ezek az újítások jelentősen javítják a tanulási dinamikát és az érvelési teljesítményt a LLM-ek esetében. Az APMPO így hatékonyabb és rugalmasabb megoldást kínál a mesterséges intelligencia modellek logikai képességeinek fejlesztésére az ArXiv 2024. március 10-i publikációjában.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom