投影贝尔曼误差已证明在线性函数逼近下是稳定的。这项技术一点也不新鲜。我只能想知道为什么不采用这种技术来与非线性函数逼近(例如 DQN)一起使用?相反,使用了理论上不太合理的目标网络。
我可以提出两种可能的解释:
- 它不容易适用于非线性函数逼近情况(需要一些工作)
- 它不会产生一个好的解决方案。这是真正的贝尔曼错误的情况,但我不确定预计的错误。
投影贝尔曼误差已证明在线性函数逼近下是稳定的。这项技术一点也不新鲜。我只能想知道为什么不采用这种技术来与非线性函数逼近(例如 DQN)一起使用?相反,使用了理论上不太合理的目标网络。
我可以提出两种可能的解释:
我在 Maei 的论文(2011 年)中找到了一些线索:“梯度时差学习算法”。
根据论文:
它不容易应用于非线性函数逼近。
不,确实如此。
它不会产生一个好的解决方案。
不,确实如此。TD-不动点是半梯度TD(一般用)解的同一个点。没有优势。
唯一的解释似乎是实际的收敛速度。
引用他的话:
我们的一些经验结果表明,梯度 TD 方法在处理传统 TD 方法可靠的问题(即策略学习问题)上可能比传统 TD 方法慢。
据我了解,上述投影算子投影到由一组特征向量(或特征函数)产生的线性特征子空间,即特征线性组合的空间。Vanilla DQN 没有任何特征空间,投影到线性子空间在 DQN 上下文中没有意义。如果您尝试使用某些 NN 为值/Q 生成特征空间,则它不会是 DQN(因为不会生成 Q),并且除了玩具问题之外它无论如何都不起作用,因为输出的自由度会太高了。