强化学习中 V 和 Q 之间联系的证明

数据挖掘 强化学习
2022-02-18 08:10:01

我一直在学习SpinningUp 材料中的一些基础强化学习。

有没有数学证明Vπ(s)=Eaπ[Qπ(s,a)|s0=s]?

1个回答

它非常简单地来自 V 和 Q 的定义。

这些是相关的定义:

Gt =˙ k=0γkRt+k+1

Vπ(s) =˙ EAπ[Gt|St=s]

Qπ(s,a) =˙ EAπ[Gt|St=s,At=a]

您可以忽略 return 的定义,Gt,为了完整起见,我将其包括在内,并简化了其他定义。

V 和 Q 的定义之间的唯一区别是添加了a在条件。如果您删除 Q 定义中的操作选择,并将其改为遵循策略,您将返回 V 的定义。

您还可以使用策略函数扩展 V 定义中的期望以显示相同的内容:

Vπ(s)=EAπ[Gt|St=s]

Vπ(s)=aπ(a|s)EAπ[Gt|St=s,At=a]

Vπ(s)=aπ(a|s)Qπ(s,a)

将其转换回对策略的期望:

Vπ(s)=EAπ[Qπ(St,At)|St=s]