Sutton & Barto 上的情景任务的策略状态分布,第 199 页

人工智能 强化学习 萨顿巴托
2021-11-06 16:07:45

Sutton & Barto 的“强化学习:介绍”,第 2 版,第 199 页中,他们在以下框中描述了情节任务的 on-policy 分布:

在此处输入图像描述

如果不考虑剧集的长度,我不明白如何做到这一点。假设一个任务有 10 个状态,从第一个状态开始的概率为 1,然后均匀地移动到任何状态,直到情节终止。如果情节有 100 个时间步,那么第一个状态的概率与1+100×1/10; 如果有1000时间步长,它将与1+1000×1/10. 但是,给出的公式将使其与1+1/10在这两种情况下。我错过了什么?

2个回答

让我们首先假设只有一个动作,所以π(a|s)=1对于每个简化讨论的状态-动作对。现在让我们考虑一个有 100 个时间步长、10 个状态和均匀分布的起始状态的情况s0h(s0)=1. 结果将是

η(s0)=1+i=09η(si)p(s0|si)==1+i=0910110=11
现在让我们考虑一个具有 1000 个时间步长的情况,其中其他设置与第一种情况相同。
η(s0)=1+i=09η(si)p(s0|si)==1+i=09100110=101
在第一种情况下
μ(s0)=11910+11=0.1089
在第二种情况下,你有
μ(s0)=1019100+101=0.1009
所以看起来你是对的μ(s)取决于剧集的长度,但他们并没有真的说它没有。显然,随着情节长度的增加,访问某个状态的次数也会增加,因此您可以说该公式隐含地取决于时间步数。如果h(si)对于每个状态都是相等的,那么无论时间步数如何,两种情况下的结果都是相同的。此外,由于可能状态的数量变得非常大,这通常是在实际问题中,随着状态数量的增加,结果将彼此接近。

你错过了表达

sη(s)

已经是一个情节的预期长度的计数,并在分母中用于缩放μ(s)这样sμ(s)=1

因此,公式中考虑了情节的长度。

在实践中你不需要知道μ(s),它可以作为一个理论结构悬而未决。您关心的理论工作是您训练的样本以相同的频率绘制 - 如果您使用 on-policy 算法,这会自动发生。因此,该理论可以隐藏您可能需要做的数学运算,以确定实际值η(s)或者μ(s)