Új RETD módszer stabilizálja az off-policy TD tanulást
A Bellman-hiba centírozása és egy új szabályozási technika segítségével a RETD kiküszöböli az Emphatic TD (ETD) magas varianciáját, miközben megőrzi annak előnyeit.

Az off-policy temporális differencia (TD) tanulás függvényapproximációval történő alkalmazása során stabilitási, projekciós geometria és variancia-szabályozási kompromisszumokkal kell szembenézni. Ezt a problémát vizsgálja egy új kutatás, amely a Bellman-hiba centírozását helyezi előtérbe — írja az ArXiv-en megjelent tanulmány.
Az Emphatic TD (ETD) módszer a follow-on emphasis révén javítja az off-policy projekciós geometriát, azonban a follow-on trace magas varianciát mutathat. A kutatók szerint a Bellman-hiba centírozása természetes módon eltávolít egy gyakori drift tagot a TD hibákból.
Egy naiv centírozott emphatikus kiterjesztés azonban egy segédkapcsolatot vezet be, amely tönkreteheti az ETD kulcsmátrixának pozitív definitségét. Erre a problémára válaszul fejlesztették ki a Regularized Emphatic Temporal-Difference Learning (RETD) algoritmust.
A RETD megőrzi a follow-on trace-t, és csak a segéd centírozási rekurziót szabályozza, ami a kapcsolt kulcsmátrix alsó-jobb blokkjának 1-ről 1+c-re emelésének felel meg. A kutatók levezették a RETD magmátrixát, és konvergenciát bizonyítottak egy konzervatív, elegendő szabályozási feltétel mellett.