为什么人们不使用深度神经网络的投影贝尔曼误差?

人工智能 强化学习 dqn 深度学习 函数逼近
2021-10-26 04:20:02

投影贝尔曼误差已证明在线性函数逼近下是稳定的。这项技术一点也不新鲜。我只能想知道为什么不采用这种技术来与非线性函数逼近(例如 DQN)一起使用?相反,使用了理论上不太合理的目标网络。

我可以提出两种可能的解释:

  1. 它不容易适用于非线性函数逼近情况(需要一些工作)
  2. 它不会产生一个好的解决方案。这是真正的贝尔曼错误的情况,但我不确定预计的错误。
2个回答

我在 Maei 的论文(2011 年)中找到了一些线索:“梯度时差学习算法”。

根据论文:

  1. GTD2 是一种最小化预计贝尔曼误差 (MSPBE) 的方法。
  2. GTD2 在非线性函数逼近情况下(和离策略)收敛。
  3. GTD2 收敛到一个 TD 固定点(与半梯度 TD 相同的点)。
  4. GTD2 的收敛速度比通常的半梯度 TD 慢。

它不容易应用于非线性函数逼近。

不,确实如此。

它不会产生一个好的解决方案。

不,确实如此。TD-不动点是半梯度TD(一般用)解的同一个点。没有优势。

唯一的解释似乎是实际的收敛速度。

引用他的话:

我们的一些经验结果表明,梯度 TD 方法在处理传统 TD 方法可靠的问题(即策略学习问题)上可能比传统 TD 方法慢。

据我了解,上述投影算子投影到由一组特征向量(或特征函数)产生的线性特征子空间,即特征线性组合的空间。Vanilla DQN 没有任何特征空间,投影到线性子空间在 DQN 上下文中没有意义。如果您尝试使用某些 NN 为值/Q 生成特征空间,则它不会是 DQN(因为不会生成 Q),并且除了玩具问题之外它无论如何都不起作用,因为输出的自由度会太高了。