在Sutton & Barto 的“强化学习:介绍”,第 2 版,第 199 页中,他们在以下框中描述了情节任务的 on-policy 分布:
如果不考虑剧集的长度,我不明白如何做到这一点。假设一个任务有 10 个状态,从第一个状态开始的概率为 1,然后均匀地移动到任何状态,直到情节终止。如果情节有 100 个时间步,那么第一个状态的概率与; 如果有时间步长,它将与. 但是,给出的公式将使其与在这两种情况下。我错过了什么?
在Sutton & Barto 的“强化学习:介绍”,第 2 版,第 199 页中,他们在以下框中描述了情节任务的 on-policy 分布:
如果不考虑剧集的长度,我不明白如何做到这一点。假设一个任务有 10 个状态,从第一个状态开始的概率为 1,然后均匀地移动到任何状态,直到情节终止。如果情节有 100 个时间步,那么第一个状态的概率与; 如果有时间步长,它将与. 但是,给出的公式将使其与在这两种情况下。我错过了什么?
让我们首先假设只有一个动作,所以对于每个简化讨论的状态-动作对。现在让我们考虑一个有 100 个时间步长、10 个状态和均匀分布的起始状态的情况和. 结果将是
你错过了表达
已经是一个情节的预期长度的计数,并在分母中用于缩放这样
因此,公式中考虑了情节的长度。
在实践中你不需要知道,它可以作为一个理论结构悬而未决。您关心的理论工作是您训练的样本以相同的频率绘制 - 如果您使用 on-policy 算法,这会自动发生。因此,该理论可以隐藏您可能需要做的数学运算,以确定实际值或者