我正在寻找一个结果,该结果显示半梯度 TD(0) 算法与用于策略预测的非线性函数逼近的收敛性。具体来说,更新方程由(借用 Sutton 和 Barto (2018) 的符号)给出
在哪里是参数化的近似值函数.
Sutton 和 Barto (2018) 提到上述更新方程在是线性的. 但我找不到非线性函数逼近的类似结果。任何帮助将不胜感激。
我正在寻找一个结果,该结果显示半梯度 TD(0) 算法与用于策略预测的非线性函数逼近的收敛性。具体来说,更新方程由(借用 Sutton 和 Barto (2018) 的符号)给出
在哪里是参数化的近似值函数.
Sutton 和 Barto (2018) 提到上述更新方程在是线性的. 但我找不到非线性函数逼近的类似结果。任何帮助将不胜感激。
根据 Rich Sutton的说法,显然有一个半梯度 sarsa 不收敛的例子(检查幻灯片 35)。我猜 TD(0) 并没有那么不同。因此,您的逼近器可能需要满足某些条件才能证明收敛。
也许这篇论文对你有用。它们似乎表明,将您的网络限制为具有 relu 激活函数可以让您展示一些收敛特性。