我在强化学习教程的评论中看到了“政策崩溃”一词。
我猜这被称为策略崩溃,当策略由于糟糕的超参数而在训练中恶化时,无论是学习率、批量大小等,但我找不到任何可以清楚地解释它的东西详细。
我在强化学习教程的评论中看到了“政策崩溃”一词。
我猜这被称为策略崩溃,当策略由于糟糕的超参数而在训练中恶化时,无论是学习率、批量大小等,但我找不到任何可以清楚地解释它的东西详细。
网络搜索可"policy collapse" "reinforcement learning"找到此问题、stats.stackexchange.com 中的相关问题以及您在其中找到该短语的评论部分。还有另外两个关于不相关主题的结果,其中单词碰巧出现在彼此旁边。然后就是这样 - 来自 Google 的总共 5 个结果。
谷歌书籍 ngrams 搜索policy collapse根本找不到任何参考资料。
很难证明是否定的,但我认为这不是一个广泛使用的术语。
但是,该评论似乎确实指的是一个真实的现象。这就是强化代理,而不是在获得经验时收敛于最优策略的价值函数,实际上是发散的(逼近器的参数也会发散)。
当使用非线性函数逼近器估计动作值时,可能会发生这种情况。更一般地说,当您的问题具有以下特征时,它往往会发生:
使用函数逼近器,尤其是非线性逼近器(尽管即使是线性函数逼近器也可能发散)
使用引导方法,例如时间差 (TD) 学习(包括 SARSA 和 Q 学习),其中值从应用于连续步骤的相同值估计器更新。
政策外培训。尝试学习最优策略而不表现最优(如在 Q-Learning 中)。
在萨顿和巴托的书中,这被称为“致命三合会”。如果您进行网络搜索,"deadly triad" "reinforcement learning"您会发现更多结果。如何最好地对抗这种影响是一个正在进行的研究领域。在介绍 DQN 模型学习玩 Atari 游戏的论文中,研究人员应用了两种有助于稳定效果的方法:
体验重放,其中转换不是立即学习的,而是放入一个池中,从中抽取小批量以训练逼近器。
Bootstrap 估计来自学习网络的“冻结”副本,每 N 个训练步骤更新一次 - 即在计算 TD 目标时 ,使用这个网络的旧副本。
从您链接的评论部分看来,即使应用这些东西也不能保证修复,需要一些判断。在这种情况下,增加体验回放的小批量大小有助于稳定玩电子游戏Pong变体的代理。