在学习阶段,为什么我们没有 100% 的探索率,让我们的代理充分探索我们的环境并更新 Q 值,然后在测试期间我们引入开发?这比降低探索率更有意义吗?
为什么不建议 100% 的勘探率?
人工智能
强化学习
q学习
探索-开发-权衡
2021-11-07 19:22:25
2个回答
不——想象一下,如果您正在玩 Atari 游戏并采取完全随机的动作。你的游戏不会持续很长时间,而且你永远无法体验到所有的状态空间,因为游戏结束得太早了。这就是为什么你需要结合探索和开发来充分探索状态空间。
虽然理论上你可以做这样的事情,如果你非常有信心你会在探索中覆盖大部分状态空间,但这仍然是一个次优策略。即使在多臂老虎机的情况下,这种策略的样本效率也可能远低于-贪婪,在这种情况下探索要容易得多。
所以,即使你的策略在一个体面的 MDP 上奇迹般地起作用,它也会比结合探索和开发更糟糕。
其它你可能感兴趣的问题