Új STOMP algoritmus oldja meg a többcélú AI-tanulás nehézségeit
A STOMP nevű új offline megerősítéses tanulási algoritmus a konfliktusos célok egyidejű optimalizálására kínál megoldást, ami korábban kihívást jelentett az AI-rendszerek számára.

Új algoritmust mutatott be az ArXiv ML, amely a többcélú megerősítéses tanulás (RL) problémáira kínál hatékonyabb megoldást. A Smooth Tchebysheff Optimization of Multi-Objective Preferences (STOMP) nevű módszer a sima Tchebysheff-skalározást használja, hogy a Pareto-front nem konvex régióit is elérje — írja a kutatási publikáció.
A nagyméretű nyelvi modelleket gyakran igazítják emberi preferenciákhoz címkézett adathalmazokon keresztül, de a valós alkalmazásokban több, egymással gyakran ütköző cél optimalizálására van szükség. Ilyen például a katalitikus aktivitás és a specificitás egyidejű javítása a fehérjemérnökségben, vagy a segítőkészség és az ártalmatlanság egyensúlya a chatbotoknál.
Korábban a lineáris jutalomskalározás volt a bevett módszer, ám ez bizonyítottan alkalmatlan a Pareto-front nem konvex részeinek feltárására. A STOMP ehelyett magát a többcélú RL-t fogalmazza meg optimalizálási problémaként, amelyet a sima Tchebysheff-skalározással old meg. Ez a technika felülmúlja a lineáris skalározás hiányosságait, és robusztusabb eredményeket ígér.
A célok egyensúlyának művészete
A kutatás az offline-online megerősítéses tanulást vizsgálja lineáris keverék Markov-döntési folyamatokban (MDP), környezeti eltolódás mellett. Az offline fázisban az adatok egy ismeretlen viselkedési politikából származnak, és eltérő környezetből is érkezhetnek, míg az online fázisban a tanuló közvetlenül interakcióba lép a környezettel.
A jövő kódjának feltörése
A STOMP algoritmus kiterjeszti a meglévő offline RL módszereket, és új lehetőségeket nyit meg a komplex AI-rendszerek fejlesztésében. A kutatás szerint a STOMP algoritmus 2024-ben kerülhet bevezetésre az ArXiv ML platformon.