回报和预期回报有什么区别?

人工智能 强化学习 比较 q学习 返回 期待
2021-11-12 12:24:42

在一个时间步t, 对于一个状态St,回报定义为该时间步的折扣累积奖励t.

如果一个智能体遵循一个策略(这本身就是选择下一个状态的概率分布St+1St),代理想要找到在St通过计算所有回报的“加权平均值”St.这称为预期回报。

我的理解正确吗?

2个回答

你是对的,回报是一次迭代的折扣未来奖励,而预期回报是一堆迭代的平均值。

形式上,收益(也称为累积未来折扣奖励)可以定义为

Gt=k=0γkRt+k+1,

在哪里0γ1是折扣因子和Ri是时间步的奖励i. 这里GtRi被认为是随机变量(并且 rvs 通常用大写字母表示,所以我使用《强化学习:介绍》第 2 版一书中使用的符号)。

预期回报定义

vπ(s)=E[GtSt=s]=E[k=0γkRt+k+1|St=s]

换句话说,一个状态的价值s(与政策相关联π) 等于回报的期望Gt鉴于St=s, 所以vπ(s)被定义为条件期望还要注意,期望值通常是相对于随机变量定义的,情况就是这样。另请注意St是一个随机变量,而s是这个随机变量的一个实现。

策略不是选择下一个状态的概率分布。随机策略是给定状态下动作的条件概率分布族。还有确定性政策。看看这个问题随机策略和确定性策略有什么区别?有关随机和确定性策略定义的更多详细信息。

如果代理遵循策略,则代理希望在St通过计算所有回报的“加权平均值”St.这称为预期回报。

在蒙特卡洛预测的情况下,与特定策略相关的状态的值,即给定状态的预期回报值是用有限(加权)平均值近似的。参见例如First-Visit Monte-Carlo 和 Every-Visit Monte-Carlo Policy Evaluation 有什么区别?. 此外,请注意离散随机变量的期望定义为加权平均值