为什么使用 DQN 在 Q 值收敛之前获得最佳策略?

人工智能 dqn 深度学习 收敛 价值函数 政策
2021-11-15 09:58:01

我已经实现了 DQN 算法,想知道为什么在测试期间,最佳性能是通过大约 300 集的策略实现的,而平均 Q 值收敛于大约 800 集?

  • 通过取每个状态的最大 Q 值的平均值,在一组固定状态上计算平均 Q 值。
  • 收敛是指平均 Q 值图收敛到某个水平(这些值不会增加到无穷大)。

在这里(第 7 页)可以看出,这意味着 Q 值收敛并且平均奖励图非常嘈杂。我得到了类似的结果,在测试中,最好的策略是训练期间的峰值(平均奖励图)。我不明白为什么当 Q 值收敛时我不能随着时间的推移获得更好的平均分数(和更好的政策)。

1个回答

即使最大 Q 值的平均值从第 300 集开始增加,但这并不意味着您可以在状态下采取的操作的 Q 值的相对顺序发生变化,这意味着策略可能不会改变,即使价值函数发生变化,假设你对价值函数的行为是贪婪的。

更具体地说,假设您可以采取以下两种行动之一{a1,a2}=A在每个州sS. 假设你选择s1,s2计算最大 Q 值的平均值。不失一般性,假设在这些状态中与最高 Q 值相关的动作是a2. 如果您的策略是关于状态-动作价值函数的贪婪策略,那么您的策略将选择a2s1s2. 如果所有 Q 值q^(s1,a1),q^(s1,a2),q^(s2,a1)q^(s2,a2)增加(甚至减少)但它们的相对顺序保持不变(即q^(s1,a2)>q^(s1,a1)q^(s2,a2)>q^(s2,a1),从第 300 集开始),贪心政策也保持不变。

所以,我认为你观察到的在理论上是可能的,尽管我不能保证你没有其他问题。