在一个时间步, 对于一个状态,回报定义为该时间步的折扣累积奖励.
如果一个智能体遵循一个策略(这本身就是选择下一个状态的概率分布从),代理想要找到在通过计算所有回报的“加权平均值”这称为预期回报。
我的理解正确吗?
在一个时间步, 对于一个状态,回报定义为该时间步的折扣累积奖励.
如果一个智能体遵循一个策略(这本身就是选择下一个状态的概率分布从),代理想要找到在通过计算所有回报的“加权平均值”这称为预期回报。
我的理解正确吗?
你是对的,回报是一次迭代的折扣未来奖励,而预期回报是一堆迭代的平均值。
形式上,收益(也称为累积未来折扣奖励)可以定义为
在哪里是折扣因子和是时间步的奖励. 这里和被认为是随机变量(并且 rvs 通常用大写字母表示,所以我使用《强化学习:介绍》,第 2 版一书中使用的符号)。
预期回报定义为
换句话说,一个状态的价值(与政策相关联) 等于回报的期望鉴于, 所以被定义为条件期望。还要注意,期望值通常是相对于随机变量定义的,情况就是这样。另请注意是一个随机变量,而是这个随机变量的一个实现。
策略不是选择下一个状态的概率分布。随机策略是给定状态下动作的条件概率分布族。还有确定性政策。看看这个问题随机策略和确定性策略有什么区别?有关随机和确定性策略定义的更多详细信息。
如果代理遵循策略,则代理希望在通过计算所有回报的“加权平均值”这称为预期回报。
在蒙特卡洛预测的情况下,与特定策略相关的状态的值,即给定状态的预期回报值是用有限(加权)平均值近似的。参见例如First-Visit Monte-Carlo 和 Every-Visit Monte-Carlo Policy Evaluation 有什么区别?. 此外,请注意离散随机变量的期望定义为加权平均值。