ÉlőUtoljára: 54 perceMa: 8
Kutatásfrissítve: 01:30

10^20 állapotot kezel: függvényapproximációval oldja meg a nagy RL-problémákat a Towards Data Science

A módszer a táblázatos megoldásokkal szemben általánosítást tesz lehetővé, így a hasonló állapotok kezelése is hatékonyabbá válik.

10^20 állapotot kezel: függvényapproximációval oldja meg a nagy RL-problémákat a Towards Data Science
Fotó: Fotó: Eli Alvarez / Unsplash
forrás: Towards Data Science·AI Forradalom szerk.·
Megosztás

A megerősítő tanulás (RL) területén elengedhetetlenek a közelítő megoldási módszerek, különösen a hatalmas állapotterű problémák kezelésénél, ahol a táblázatos megközelítések már kudarcot vallanak — írja a Towards Data Science. A Sutton és Barto „Reinforcement Learning” című könyvének második részében bemutatott függvényapproximációval már tetszőleges méretű feladatok is megoldhatók.

A táblázatos módszerek, amelyeket a könyv első része tárgyalt, csak kis állapotterű problémákra alkalmasak. Például, míg a Tic Tac Toe-t még meg lehetett tanítani a korábbi technikákkal, a Connect Four már kudarcot vallott, mivel annak állapottere a 1020 nagyságrendjébe esik. A függvényapproximáció lényege, hogy nem egy táblázatban tárolja az értékfüggvényeket, hanem egy paraméterezett függvénnyel, például lineáris függvénnyel vagy mély neurális hálóval reprezentálja azokat.

A függvényapproximáció hídja

Ez a megközelítés lehetővé teszi az általánosítást: ha két állapot közel van egymáshoz, a függvényapproximáció képes felismerni a hasonlóságot és nem kezeli őket teljesen különállóként. Amikor a rendszer súlyait frissítik, a nem csak egyetlen bejegyzést módosít, hanem hatással van az összes többi becslésre is, ami a szélesebb körű tanulást segíti.

A gépi tanulás mélységei

A függvényapproximációs problémák megoldásához a felügyelt tanulás, különösen a regresszió technikáit alkalmazzák. Azonban a RL-ben használt módszereknek képesnek kell lenniük az inkrementális változások, az adathalmazok és a nem-stacionárius célok kezelésére, ami eltér a klasszikus felügyelt tanulási feladatoktól. A célfüggvény optimalizálására gyakran a sztochasztikus gradiens ereszkedést (SGD) használják.

A Sutton és Barto könyvének 9. fejezete részletesen tárgyalja a különböző approximációs függvényeket, beleértve a lineáris függvényapproximációt és a jellemzők tervezését, valamint a nemlineáris függvényapproximációhoz használt mesterséges neurális hálózatokat. Oliver S. cikkében a 'Reinforcement Learning' című könyv második részének alapjait mutatja be, 2022-ben.

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom