对贝尔曼方程的困惑

数据挖掘 机器学习 强化学习 动态规划
2021-10-07 02:45:06

在某些资源中,贝尔曼方程如下所示:

vπ(s)=aπ(a|s)s,rp(s,r|s,a)[r+γvπ(s)]

我感到困惑的是,πp右手边的零件。

由于概率部分 - p(s,r|s,a)- 表示处于下一个状态的概率 (s),并且由于处于下一个状态 (s) 必须通过执行特定操作来完成,p部分还包括在其中采取特定行动的概率。

但是,为什么 π(a|s)写在等式的开头?为什么我们需要它?采取行动的可能性不是在p(s,r|s,a) 部分已经?

1个回答

p(s,r|s,a) 是到达状态的概率 s 并获得奖励 r 鉴于环境处于状态 s 代理人采取了行动 a. 因此,这个概率被定义为假设动作a被采取没有被录取的可能a包括在那里。

智能体采取行动的概率由策略提供π,这就是为什么我们需要在等式中使用它。

您可以考虑这两项与总概率定律的相互作用:p(A)=np(ABn)p(Bn), 在哪里p(Bn)类似于π(a|s)p(ABn)类似于p(s,r|s,a).