对于 2 臂老虎机问题,在 0.5 贪心选择方法中选择贪心动作的概率是多少?

人工智能 强化学习 多臂强盗 epsilon-贪婪策略
2021-10-19 06:16:35

我是强化学习的新手,我正在学习Sutton 和 Barto练习 2.1 陈述如下:

ε-贪婪的动作选择,对于两个动作的情况和ε=0.5,选择贪婪动作的概率是多少?

他们描述了ε-第 27-28 页的贪婪方法如下:

...大多数时候表现得很贪婪,但每隔一段时间,以小概率说ε,而是从所有具有相等概率的动作中随机选择......

上述方法使智能体以概率均匀地从动作空间中“每隔一段时间”随机选择一个动作ε. 我发现这个问题不精确,因为我们不知道这个练习中的“偶尔”(即是否每隔一段时间50时间步长?每个时间步?)。如果是针对每一个时间步,是不是像一个参数为的伯努利问题0.5? 我会说代理有一个0.5有机会选择一个贪婪的动作,但我完全不确定。

1个回答

我阅读了 Sutton 和 Barto 的第 2.2 节,我理解您的困惑:ϵ-greedy 算法在第 27-28 页上没有精确定义。以概率“每隔一段时间”随机选择一个动作ϵ意味着以概率随机选择一个动作ϵ在每个时间步,并以概率贪婪地选择一个动作1ϵ在每个时间步。这个定义是标准的,随着你阅读本书和其他相关文献的进展会很清楚。供参考,ϵ-Sutton 和 Barto 的第 32 页的伪代码中使用了贪婪算法。

这个问题的关键区别在于它要求选择贪婪动作的概率,而不是贪婪地选择动作的概率具体来说,当智能体随机选择动作时,可以选择贪婪动作,因为贪婪动作在动作空间中,并且在随机选择动作时对整个动作空间进行均匀采样。

自从ϵ=0.5,代理将在 50% 的时间贪婪地选择一个动作,这将 100% 的时间是贪婪的动作。代理将在另外 50% 的时间里随机选择一个动作。由于动作空间中有两个动作,所以当智能体随机选择一个动作时,50% 的时间会选择贪婪动作。因此,在任意单个时间步选择贪心动作的概率如下:

p(greedy action)= p(greedy action AND greedy selection)+p(greedy action AND random selection)= p(greedy selection)p(greedy action | greedy selection)+p(random selection)p(greedy action | random selection)= (1ϵ)p(greedy action | greedy selection)+ϵp(greedy action | random selection)= 0.5p(greedy action | greedy selection)+0.5p(greedy action | random selection)= 0.51+0.50.5= 0.5+0.25= 0.75.