Kutatás2026. máj. 7.frissítve: 06:10

Új RETD módszer stabilizálja az off-policy TD tanulást

A Bellman-hiba centírozása és egy új szabályozási technika segítségével a RETD kiküszöböli az Emphatic TD (ETD) magas varianciáját, miközben megőrzi annak előnyeit.

Fotó: Jakub Żerdzicki / Unsplash

forrás: ArXiv AI·AI Forradalom szerk.·2026. május 7.

Megosztás

Az off-policy temporális differencia (TD) tanulás függvényapproximációval történő alkalmazása során stabilitási, projekciós geometria és variancia-szabályozási kompromisszumokkal kell szembenézni. Ezt a problémát vizsgálja egy új kutatás, amely a Bellman-hiba centírozását helyezi előtérbe — írja az ArXiv-en megjelent tanulmány.

Az Emphatic TD (ETD) módszer a follow-on emphasis révén javítja az off-policy projekciós geometriát, azonban a follow-on trace magas varianciát mutathat. A kutatók szerint a Bellman-hiba centírozása természetes módon eltávolít egy gyakori drift tagot a TD hibákból.

Egy naiv centírozott emphatikus kiterjesztés azonban egy segédkapcsolatot vezet be, amely tönkreteheti az ETD kulcsmátrixának pozitív definitségét. Erre a problémára válaszul fejlesztették ki a Regularized Emphatic Temporal-Difference Learning (RETD) algoritmust.

A RETD megőrzi a follow-on trace-t, és csak a segéd centírozási rekurziót szabályozza, ami a kapcsolt kulcsmátrix alsó-jobb blokkjának 1-ről 1+c-re emelésének felel meg. A kutatók levezették a RETD magmátrixát, és konvergenciát bizonyítottak egy konzervatív, elegendő szabályozási feltétel mellett.

tetszett a cikk? oszd meg →

Megosztás