一个国家的价值在一定的政策下,,被定义为从状态开始的“预期回报”. 更准确地说,它被定义为
在哪里可以定义为
这是一段时间后“折扣”奖励的总和,即从时间开始.
也可以更准确地解释为预期的累积未来折扣奖励。该表示包含所有涉及上述公式特定部分的词,其中
- “预期”是指“预期值”
- “累积”是指总和
- “未来”是指未来数量相对于当前数量的期望值,即.
- “Discounted”指的是“gamma”因子,它是一种调整我们在未来时间步骤中重视奖励的重要性的方法,即从.
- “奖励”是指感兴趣的主要数量,即从环境中获得的奖励。
同时,我也听说过“预期回报”这个词,但我不确定它是否指的是同一个概念,即“预期回报”和“预期回报”是不是同一个东西。
我知道还有“下一次奖励的期望值”的概念,通常表示为 , 并定义为
这也是我们在下一个时间步(即时间步)对奖励的期望值 ,鉴于该动作 从状态 带我们陈述 .
“预期的回报”实际上是 代替 ?