Kutatás2026. ápr. 18.frissítve: 02:10

Új STOMP algoritmus oldja meg a többcélú AI-tanulás nehézségeit

A STOMP nevű új offline megerősítéses tanulási algoritmus a konfliktusos célok egyidejű optimalizálására kínál megoldást, ami korábban kihívást jelentett az AI-rendszerek számára.

Fotó: Fotó: Simon Kadula / Unsplash

forrás: ArXiv ML·AI Forradalom szerk.·2026. április 18.

Megosztás

Új algoritmust mutatott be az ArXiv ML, amely a többcélú megerősítéses tanulás (RL) problémáira kínál hatékonyabb megoldást. A Smooth Tchebysheff Optimization of Multi-Objective Preferences (STOMP) nevű módszer a sima Tchebysheff-skalározást használja, hogy a Pareto-front nem konvex régióit is elérje — írja a kutatási publikáció.

A nagyméretű nyelvi modelleket gyakran igazítják emberi preferenciákhoz címkézett adathalmazokon keresztül, de a valós alkalmazásokban több, egymással gyakran ütköző cél optimalizálására van szükség. Ilyen például a katalitikus aktivitás és a specificitás egyidejű javítása a fehérjemérnökségben, vagy a segítőkészség és az ártalmatlanság egyensúlya a chatbotoknál.

Korábban a lineáris jutalomskalározás volt a bevett módszer, ám ez bizonyítottan alkalmatlan a Pareto-front nem konvex részeinek feltárására. A STOMP ehelyett magát a többcélú RL-t fogalmazza meg optimalizálási problémaként, amelyet a sima Tchebysheff-skalározással old meg. Ez a technika felülmúlja a lineáris skalározás hiányosságait, és robusztusabb eredményeket ígér.

A célok egyensúlyának művészete

A kutatás az offline-online megerősítéses tanulást vizsgálja lineáris keverék Markov-döntési folyamatokban (MDP), környezeti eltolódás mellett. Az offline fázisban az adatok egy ismeretlen viselkedési politikából származnak, és eltérő környezetből is érkezhetnek, míg az online fázisban a tanuló közvetlenül interakcióba lép a környezettel.

A jövő kódjának feltörése

A STOMP algoritmus kiterjeszti a meglévő offline RL módszereket, és új lehetőségeket nyit meg a komplex AI-rendszerek fejlesztésében. A kutatás szerint a STOMP algoritmus 2024-ben kerülhet bevezetésre az ArXiv ML platformon.

tetszett a cikk? oszd meg →

Megosztás