Deep-Q 学习本质上是不稳定的吗

机器算法验证 深度学习 强化学习 q学习
2022-03-06 06:11:25

我正在阅读 Barto 和 Sutton 的强化学习,在其中(第 11 章)他们提出了“致命的三合会”:

  1. 函数逼近
  2. 自举
  3. 政策外培训

他们指出,使用所有这 3 个的算法是不稳定的,并且在训练中容易发散。我的想法是,深度 Q 学习不是对这三个方面都有影响吗?它当然使用深度神经网络形式的函数逼近,它使用自举,因为它是一种时间差分学习形式,因此它的更新基于未来的 Q 值,它使用离策略训练,因为它的值更新利用了最大值的未来时间步长 Q 值,而正在训练的策略(行为策略)可能不是贪心算法。

在我看来,深度 Q 学习本质上应该是不稳定的。这是真的,还是我的理解有误?如果它实际上本质上是不稳定的,那么后续问题将是,它在实践中是否不稳定?即是否存在深度 Q 学习不稳定的一大类问题,或者对于绝大多数问题使用深度 Q 学习通常仍然可以,但是深度 Q 学习可以解决一些小问题可能不稳定?

1个回答

鉴于重放记忆、梯度裁剪、奖励裁剪、精心选择的推出策略和使用目标网络等技巧通常是实现合理性能所必需的,即使这样训练也可能不稳定,是的,在实践。

这并不意味着它在实践中不起作用——DeepMind 的 Atari 论文表明,借助上述技巧,它确实是可能的。然而,它相当具有挑战性,需要数千万步才能正确训练。