10^20 állapotot kezel: függvényapproximációval oldja meg a nagy RL-problémákat a Towards Data Science
A módszer a táblázatos megoldásokkal szemben általánosítást tesz lehetővé, így a hasonló állapotok kezelése is hatékonyabbá válik.

A megerősítő tanulás (RL) területén elengedhetetlenek a közelítő megoldási módszerek, különösen a hatalmas állapotterű problémák kezelésénél, ahol a táblázatos megközelítések már kudarcot vallanak — írja a Towards Data Science. A Sutton és Barto „Reinforcement Learning” című könyvének második részében bemutatott függvényapproximációval már tetszőleges méretű feladatok is megoldhatók.
A táblázatos módszerek, amelyeket a könyv első része tárgyalt, csak kis állapotterű problémákra alkalmasak. Például, míg a Tic Tac Toe-t még meg lehetett tanítani a korábbi technikákkal, a Connect Four már kudarcot vallott, mivel annak állapottere a 1020 nagyságrendjébe esik. A függvényapproximáció lényege, hogy nem egy táblázatban tárolja az értékfüggvényeket, hanem egy paraméterezett függvénnyel, például lineáris függvénnyel vagy mély neurális hálóval reprezentálja azokat.
A függvényapproximáció hídja
Ez a megközelítés lehetővé teszi az általánosítást: ha két állapot közel van egymáshoz, a függvényapproximáció képes felismerni a hasonlóságot és nem kezeli őket teljesen különállóként. Amikor a rendszer súlyait frissítik, a nem csak egyetlen bejegyzést módosít, hanem hatással van az összes többi becslésre is, ami a szélesebb körű tanulást segíti.
A gépi tanulás mélységei
A függvényapproximációs problémák megoldásához a felügyelt tanulás, különösen a regresszió technikáit alkalmazzák. Azonban a RL-ben használt módszereknek képesnek kell lenniük az inkrementális változások, az adathalmazok és a nem-stacionárius célok kezelésére, ami eltér a klasszikus felügyelt tanulási feladatoktól. A célfüggvény optimalizálására gyakran a sztochasztikus gradiens ereszkedést (SGD) használják.
A Sutton és Barto könyvének 9. fejezete részletesen tárgyalja a különböző approximációs függvényeket, beleértve a lineáris függvényapproximációt és a jellemzők tervezését, valamint a nemlineáris függvényapproximációhoz használt mesterséges neurális hálózatokat. Oliver S. cikkében a 'Reinforcement Learning' című könyv második részének alapjait mutatja be, 2022-ben.