了解为什么在深度强化学习中数据中的相关性会降低有效性

数据挖掘 深度学习 强化学习 相关性
2022-02-13 15:34:47

从纸上

通过深度强化学习进行人类水平控制,Mnih 等人。自然 2015

它说

Reinforcement learning is known to be unstable or even to diverge
when a nonlinear function approximator such as a neural network is
used to represent the action-value (also known as Q) function 20 .
This instability has several causes: the correlations present in the
sequence of observations

我不确定如何理解这一点,也无法创建任何可能发生这种情况的假设示例。有哪些假设场景或真实示例,其中序列中存在的相关性会破坏使用“深度学习”逼近器的使用?

2个回答

一个原因可能是训练数据之间的高度相关性会导致深度学习器出现偏差。这样,如果学习器得到一个与训练数据不相关的新数据,就会有很大的误差。

例如,有一篇论文Asynchronous Methods for Deep Reinforcement Learning (Mnih et. al. 2016, ICML),他们在介绍中解释说“以前认为”这是不稳定的。本文提出的算法(AC3)的结果表明,DRL 可以是稳定的。