在某些资源中,贝尔曼方程如下所示:
我感到困惑的是, 和右手边的零件。
由于概率部分 - - 表示处于下一个状态的概率 (),并且由于处于下一个状态 () 必须通过执行特定操作来完成,部分还包括在其中采取特定行动的概率。
但是,为什么 写在等式的开头?为什么我们需要它?采取行动的可能性不是在 部分已经?
在某些资源中,贝尔曼方程如下所示:
我感到困惑的是, 和右手边的零件。
由于概率部分 - - 表示处于下一个状态的概率 (),并且由于处于下一个状态 () 必须通过执行特定操作来完成,部分还包括在其中采取特定行动的概率。
但是,为什么 写在等式的开头?为什么我们需要它?采取行动的可能性不是在 部分已经?
是到达状态的概率 并获得奖励 鉴于环境处于状态 代理人采取了行动 . 因此,这个概率被定义为假设动作被采取。没有被录取的可能包括在那里。
智能体采取行动的概率由策略提供,这就是为什么我们需要在等式中使用它。
您可以考虑这两项与总概率定律的相互作用:, 在哪里类似于和类似于.