数据挖掘 - 什么是“政策崩溃”，原因是什么？ - 吾爱随笔录

什么是“政策崩溃”，原因是什么？

数据挖掘强化学习

2021-09-23 01:54:44

我在强化学习教程的评论中看到了“政策崩溃”一词。

我猜这被称为策略崩溃，当策略由于糟糕的超参数而在训练中恶化时，无论是学习率、批量大小等，但我找不到任何可以清楚地解释它的东西详细。

1个回答

网络搜索可"policy collapse" "reinforcement learning"找到此问题、stats.stackexchange.com 中的相关问题以及您在其中找到该短语的评论部分。还有另外两个关于不相关主题的结果，其中单词碰巧出现在彼此旁边。然后就是这样 - 来自 Google 的总共 5 个结果。

谷歌书籍 ngrams 搜索policy collapse根本找不到任何参考资料。

很难证明是否定的，但我认为这不是一个广泛使用的术语。

但是，该评论似乎确实指的是一个真实的现象。这就是强化代理，而不是在获得经验时收敛于最优策略的价值函数，实际上是发散的（逼近器的参数也会发散）。

当使用非线性函数逼近器估计动作值时，可能会发生这种情况。更一般地说，当您的问题具有以下特征时，它往往会发生：

使用函数逼近器，尤其是非线性逼近器（尽管即使是线性函数逼近器也可能发散）
使用引导方法，例如时间差 (TD) 学习（包括 SARSA 和 Q 学习），其中值从应用于连续步骤的相同值估计器更新。
政策外培训。尝试学习最优策略而不表现最优（如在 Q-Learning 中）。

在萨顿和巴托的书中，这被称为“致命三合会”。如果您进行网络搜索，"deadly triad" "reinforcement learning"您会发现更多结果。如何最好地对抗这种影响是一个正在进行的研究领域。在介绍 DQN 模型学习玩 Atari 游戏的论文中，研究人员应用了两种有助于稳定效果的方法：

体验重放，其中转换不是立即学习的，而是放入一个池中，从中抽取小批量以训练逼近器。
Bootstrap 估计来自学习网络的“冻结”副本，每 N 个训练步骤更新一次 - 即在计算 TD 目标时 $R + \gamma \hat{q}(S', A', \theta)$ ，使用这个网络的旧副本。

从您链接的评论部分看来，即使应用这些东西也不能保证修复，需要一些判断。在这种情况下，增加体验回放的小批量大小有助于稳定玩电子游戏Pong变体的代理。

其它你可能感兴趣的问题

上一篇规则引擎与机器学习下一篇为什么重复输入不好？