人工智能 - Sutton & Barto 上的情景任务的策略状态分布，第 199 页 - 吾爱随笔录

Sutton & Barto 上的情景任务的策略状态分布，第 199 页

人工智能强化学习萨顿巴托

2021-11-06 16:07:45

在Sutton & Barto 的“强化学习：介绍”，第 2 版，第 199 页中，他们在以下框中描述了情节任务的 on-policy 分布：

如果不考虑剧集的长度，我不明白如何做到这一点。假设一个任务有 10 个状态，从第一个状态开始的概率为 1，然后均匀地移动到任何状态，直到情节终止。如果情节有 100 个时间步，那么第一个状态的概率与 $1 + 100\times 1/10$ ; 如果有 $1000$ 时间步长，它将与 $1 + 1000\times 1/10$ . 但是，给出的公式将使其与 $1 + 1/10$ 在这两种情况下。我错过了什么？

2个回答

让我们首先假设只有一个动作，所以 $\pi(a|s) = 1$ 对于每个简化讨论的状态-动作对。现在让我们考虑一个有 100 个时间步长、10 个状态和均匀分布的起始状态的情况 $s_0$ 和 $h(s_0) = 1$ . 结果将是

\begin{aligned} η (s_{0}) & = 1 + \sum_{i = 0}^{9} η (s_{i}) \cdot p (s_{0} | s_{i}) = \\ = 1 + \sum_{i = 0}^{9} 10 \cdot \frac{1}{10} = 11 \end{aligned}

$\begin{align} \eta(s_0) &= 1 + \sum_{i = 0}^9 \eta(s_i) \cdot p(s_0|s_i) =\\ &= 1 + \sum_{i = 0}^9 10 \cdot \frac{1}{10} = 11 \end{align}$ 现在让我们考虑一个具有 1000 个时间步长的情况，其中其他设置与第一种情况相同。

\begin{aligned} η (s_{0}) & = 1 + \sum_{i = 0}^{9} η (s_{i}) \cdot p (s_{0} | s_{i}) = \\ = 1 + \sum_{i = 0}^{9} 100 \cdot \frac{1}{10} = 101 \end{aligned}

$\begin{align} \eta(s_0) &= 1 + \sum_{i = 0}^{9} \eta(s_i) \cdot p(s_0|s_i) =\\ &= 1 + \sum_{i = 0}^{9} 100 \cdot \frac{1}{10} = 101 \end{align}$ 在第一种情况下

μ (s_{0}) = \frac{11}{9 \cdot 10 + 11} = 0.1089

$\begin{equation} \mu(s_0) = \frac{11}{9\cdot 10 + 11} = 0.1089 \end{equation}$ 在第二种情况下，你有

μ (s_{0}) = \frac{101}{9 \cdot 100 + 101} = 0.1009

$\begin{equation} \mu(s_0) = \frac{101}{9\cdot 100 + 101} = 0.1009 \end{equation}$ 所以看起来你是对的

μ (s)

$\mu(s)$ 取决于剧集的长度，但他们并没有真的说它没有。显然，随着情节长度的增加，访问某个状态的次数也会增加，因此您可以说该公式隐含地取决于时间步数。如果

h (s_{i})

$h(s_i)$ 对于每个状态都是相等的，那么无论时间步数如何，两种情况下的结果都是相同的。此外，由于可能状态的数量变得非常大，这通常是在实际问题中，随着状态数量的增加，结果将彼此接近。

你错过了表达

\sum_{s^{'}} η (s^{'})

$\sum_{s'} \eta(s')$

已经是一个情节的预期长度的计数，并在分母中用于缩放 $\mu(s)$ 这样 $\sum_{s} \mu(s) = 1$

因此，公式中考虑了情节的长度。

在实践中你不需要知道 $\mu(s)$ ，它可以作为一个理论结构悬而未决。您关心的理论工作是您训练的样本以相同的频率绘制 - 如果您使用 on-policy 算法，这会自动发生。因此，该理论可以隐藏您可能需要做的数学运算，以确定实际值 $\eta(s)$ 或者 $\mu(s)$

其它你可能感兴趣的问题

上一篇什么是机器学习中的概率分布？下一篇强化学习和 AutoML 有什么区别？