它非常简单地来自 V 和 Q 的定义。
这些是相关的定义:
Gt =˙ ∑k=0∞γkRt+k+1
Vπ(s) =˙ EA∼π[Gt|St=s]
Qπ(s,a) =˙ EA∼π[Gt|St=s,At=a]
您可以忽略 return 的定义,Gt,为了完整起见,我将其包括在内,并简化了其他定义。
V 和 Q 的定义之间的唯一区别是添加了a在条件。如果您删除 Q 定义中的操作选择,并将其改为遵循策略,您将返回 V 的定义。
您还可以使用策略函数扩展 V 定义中的期望以显示相同的内容:
Vπ(s)=EA∼π[Gt|St=s]
Vπ(s)=∑aπ(a|s)EA∼π[Gt|St=s,At=a]
Vπ(s)=∑aπ(a|s)Qπ(s,a)
将其转换回对策略的期望:
Vπ(s)=EA∼π[Qπ(St,At)|St=s]