人工智能 - 为什么人们不使用深度神经网络的投影贝尔曼误差？ - 吾爱随笔录

为什么人们不使用深度神经网络的投影贝尔曼误差？

人工智能强化学习 dqn 深度学习函数逼近

2021-10-26 04:20:02

投影贝尔曼误差已证明在线性函数逼近下是稳定的。这项技术一点也不新鲜。我只能想知道为什么不采用这种技术来与非线性函数逼近（例如 DQN）一起使用？相反，使用了理论上不太合理的目标网络。

我可以提出两种可能的解释：

它不容易适用于非线性函数逼近情况（需要一些工作）
它不会产生一个好的解决方案。这是真正的贝尔曼错误的情况，但我不确定预计的错误。

2个回答

我在 Maei 的论文（2011 年）中找到了一些线索：“梯度时差学习算法”。

根据论文：

GTD2 是一种最小化预计贝尔曼误差 (MSPBE) 的方法。
GTD2 在非线性函数逼近情况下（和离策略）收敛。
GTD2 收敛到一个 TD 固定点（与半梯度 TD 相同的点）。
GTD2 的收敛速度比通常的半梯度 TD 慢。

它不容易应用于非线性函数逼近。

不，确实如此。

它不会产生一个好的解决方案。

不，确实如此。TD-不动点是半梯度TD（一般用）解的同一个点。没有优势。

唯一的解释似乎是实际的收敛速度。

引用他的话：

我们的一些经验结果表明，梯度 TD 方法在处理传统 TD 方法可靠的问题（即策略学习问题）上可能比传统 TD 方法慢。

据我了解，上述投影算子投影到由一组特征向量（或特征函数）产生的线性特征子空间，即特征线性组合的空间。Vanilla DQN 没有任何特征空间，投影到线性子空间在 DQN 上下文中没有意义。如果您尝试使用某些 NN 为值/Q 生成特征空间，则它不会是 DQN（因为不会生成 Q），并且除了玩具问题之外它无论如何都不起作用，因为输出的自由度会太高了。

其它你可能感兴趣的问题

上一篇选择阶段何时在 MCTS 中准确结束？下一篇学习意味着什么？