人工智能 - 对于 2 臂老虎机问题，在 0.5 贪心选择方法中选择贪心动作的概率是多少？ - 吾爱随笔录

对于 2 臂老虎机问题，在 0.5 贪心选择方法中选择贪心动作的概率是多少？

人工智能强化学习多臂强盗 epsilon-贪婪策略

2021-10-19 06:16:35

我是强化学习的新手，我正在学习Sutton 和 Barto。练习 2.1 陈述如下：

在 $\varepsilon$ -贪婪的动作选择，对于两个动作的情况和 $\varepsilon=0.5$ ，选择贪婪动作的概率是多少？

他们描述了 $\varepsilon$ -第 27-28 页的贪婪方法如下：

...大多数时候表现得很贪婪，但每隔一段时间，以小概率说 $\varepsilon$ ，而是从所有具有相等概率的动作中随机选择......

上述方法使智能体以概率均匀地从动作空间中“每隔一段时间”随机选择一个动作 $\varepsilon$ . 我发现这个问题不精确，因为我们不知道这个练习中的“偶尔”（即是否每隔一段时间 $50$ 时间步长？每个时间步？）。如果是针对每一个时间步，是不是像一个参数为的伯努利问题 $0.5$ ? 我会说代理有一个 $0.5$ 有机会选择一个贪婪的动作，但我完全不确定。

1个回答

我阅读了 Sutton 和 Barto 的第 2.2 节，我理解您的困惑： $\epsilon$ -greedy 算法在第 27-28 页上没有精确定义。以概率“每隔一段时间”随机选择一个动作 $\epsilon$ 意味着以概率随机选择一个动作 $\epsilon$ 在每个时间步，并以概率贪婪地选择一个动作 $1-\epsilon$ 在每个时间步。这个定义是标准的，随着你阅读本书和其他相关文献的进展会很清楚。供参考， $\epsilon$ -Sutton 和 Barto 的第 32 页的伪代码中使用了贪婪算法。

这个问题的关键区别在于它要求选择贪婪动作的概率，而不是贪婪地选择动作的概率。具体来说，当智能体随机选择动作时，可以选择贪婪动作，因为贪婪动作在动作空间中，并且在随机选择动作时对整个动作空间进行均匀采样。

自从 $\epsilon=0.5$ ，代理将在 50% 的时间贪婪地选择一个动作，这将 100% 的时间是贪婪的动作。代理将在另外 50% 的时间里随机选择一个动作。由于动作空间中有两个动作，所以当智能体随机选择一个动作时，50% 的时间会选择贪婪动作。因此，在任意单个时间步选择贪心动作的概率如下：

\begin{aligned} p (greedy action) \\ = & p (greedy action AND greedy selection) + p (greedy action AND random selection) \\ = & p (greedy selection) \cdot p (greedy action | greedy selection) \\ + p (random selection) \cdot p (greedy action | random selection) \\ = & (1 - ϵ) \cdot p (greedy action | greedy selection) + ϵ \cdot p (greedy action | random selection) \\ = & 0.5 \cdot p (greedy action | greedy selection) + 0.5 \cdot p (greedy action | random selection) \\ = & 0.5 \cdot 1 + 0.5 \cdot 0.5 \\ = & 0.5 + 0.25 \\ = & 0.75. \end{aligned}

$\begin{align} &p(\mbox{greedy action}) \\ =\ &p(\mbox{greedy action AND greedy selection}) + p(\mbox{greedy action AND random selection})\\ =\ &p(\mbox{greedy selection}) \cdot p(\mbox{greedy action}\ |\ \mbox{greedy selection}) \\ &\hspace{1em}+ p(\mbox{random selection})\cdot p(\mbox{greedy action}\ |\ \mbox{random selection})\\ =\ &(1-\epsilon) \cdot p(\mbox{greedy action}\ |\ \mbox{greedy selection}) + \epsilon \cdot p(\mbox{greedy action}\ |\ \mbox{random selection})\\ =\ &0.5 \cdot p(\mbox{greedy action}\ |\ \mbox{greedy selection}) + 0.5 \cdot p(\mbox{greedy action}\ |\ \mbox{random selection})\\ =\ &0.5 \cdot 1 + 0.5 \cdot 0.5 \\ =\ &0.5+ 0.25 \\ =\ &0.75. \end{align}$

其它你可能感兴趣的问题

上一篇在深度学习研究领域，研究人员在发明新的神经网络模型时会考虑哪些因素？下一篇在 MCTS 中，如果我不想模拟到游戏结束怎么办？