我阅读了 Sutton 和 Barto 的第 2.2 节,我理解您的困惑:ε-greedy 算法在第 27-28 页上没有精确定义。以概率“每隔一段时间”随机选择一个动作ε意味着以概率随机选择一个动作ε在每个时间步,并以概率贪婪地选择一个动作1 - ε在每个时间步。这个定义是标准的,随着你阅读本书和其他相关文献的进展会很清楚。供参考,ε-Sutton 和 Barto 的第 32 页的伪代码中使用了贪婪算法。
这个问题的关键区别在于它要求选择贪婪动作的概率,而不是贪婪地选择动作的概率。具体来说,当智能体随机选择动作时,可以选择贪婪动作,因为贪婪动作在动作空间中,并且在随机选择动作时对整个动作空间进行均匀采样。
自从ε = 0.5,代理将在 50% 的时间贪婪地选择一个动作,这将 100% 的时间是贪婪的动作。代理将在另外 50% 的时间里随机选择一个动作。由于动作空间中有两个动作,所以当智能体随机选择一个动作时,50% 的时间会选择贪婪动作。因此,在任意单个时间步选择贪心动作的概率如下:
= = = = = = = p (贪婪动作)p (贪婪行动和贪婪选择)+ p (贪婪行动和随机选择)p (贪婪选择) ⋅ p (贪婪行动|贪婪选择) + p (随机选择) ⋅ p (贪心动作|随机选择) ( 1 − ϵ ) ⋅ p (贪心动作|贪心选择) + ϵ ⋅ p (贪心动作|随机选择) 0.5 ⋅ p (贪婪动作|贪婪选择)+ 0.5 ⋅ p (贪婪动作|随机选择) 0.5 ⋅ 1 + 0.5 ⋅ 0.50.5 + 0.250.75。