练习 3.5 第 3.1 节中的等式是针对连续情况的,需要修改(非常轻微)以适用于情节任务。通过给出 (3.3) 的修改版本,表明您知道所需的修改。
, 对所有人 (3.3)
它只是关于最终状态吗?因此对于当 S 不是最终的?
练习 3.5 第 3.1 节中的等式是针对连续情况的,需要修改(非常轻微)以适用于情节任务。通过给出 (3.3) 的修改版本,表明您知道所需的修改。
, 对所有人 (3.3)
它只是关于最终状态吗?因此对于当 S 不是最终的?
它只是关于最终状态吗?因此对于当 S 不是最终的?
你的想法是对的,但要表达你的意思,你不需要写出“当不是最终的” - 虽然这很好(并且在某些地方使用),但本书给出了一种更简洁的说法。
由于这是本书的正式练习,我不想写出一个可以为所有学生剪切和粘贴的答案。
相反,我建议您查看本书开头的符号部分,并了解 Sutton 和 Barto 如何为所有状态(包括终端状态)和所有状态(不包括终端状态)使用不同的集合标签。此外,请仔细检查哪些集合需要相加。
我发现自己循环了一段时间,所以为了澄清尼尔斯莱特的回答,
在本书的开头,表示“一组非终端状态”和意思是“所有状态的集合,包括终端状态”。
也就是说,在等式。3.3 当我们定义,我们说一旦处于终端状态,公式就不再适用(这很明显,因为根据定义,在终端状态下没有任何动作可用)。
然而,它并不限制如何“获得”处于最终状态的概率,这是回答问题的关键。