人工智能 - 为什么不建议 100% 的勘探率？ - 吾爱随笔录

人工智能强化学习 q学习探索-开发-权衡

2021-11-07 19:22:25

在学习阶段，为什么我们没有 100% 的探索率，让我们的代理充分探索我们的环境并更新 Q 值，然后在测试期间我们引入开发？这比降低探索率更有意义吗？

2个回答

不——想象一下，如果您正在玩 Atari 游戏并采取完全随机的动作。你的游戏不会持续很长时间，而且你永远无法体验到所有的状态空间，因为游戏结束得太早了。这就是为什么你需要结合探索和开发来充分探索状态空间。

虽然理论上你可以做这样的事情，如果你非常有信心你会在探索中覆盖大部分状态空间，但这仍然是一个次优策略。即使在多臂老虎机的情况下，这种策略的样本效率也可能远低于 $\epsilon$ -贪婪，在这种情况下探索要容易得多。

所以，即使你的策略在一个体面的 MDP 上奇迹般地起作用，它也会比结合探索和开发更糟糕。

其它你可能感兴趣的问题