半梯度 TD(0) 与非线性函数逼近的收敛

人工智能 强化学习 收敛 函数逼近 时差法 策略方法
2021-11-16 12:10:55

我正在寻找一个结果,该结果显示半梯度 TD(0) 算法与用于策略预测的非线性函数逼近的收敛性。具体来说,更新方程由(借用 Sutton 和 Barto (2018) 的符号)给出

ww+α[R+γv^(S,w)v^(S,w)]v^(S,w)

在哪里v^(S,w)是参数化的近似值函数w.

Sutton 和 Barto (2018) 提到上述更新方程在v^是线性的w. 但我找不到非线性函数逼近的类似结果。任何帮助将不胜感激。

1个回答

根据 Rich Sutton的说法,显然有一个半梯度 sarsa 不收敛的例子(检查幻灯片 35)。我猜 TD(0) 并没有那么不同。因此,您的逼近器可能需要满足某些条件才能证明收敛。

也许这篇论文对你有用。它们似乎表明,将您的网络限制为具有 relu 激活函数可以让您展示一些收敛特性。