强化学习中的相容函数逼近定理

机器算法验证 机器学习 深度学习 强化学习
2022-03-13 17:46:45

Compatible Function Approximation Theorem中,需要以下条件才能使策略梯度精确J(θ)=Eπθ[θlogπθ(s,a)QW(s,a)]

有一个条件是价值函数逼近器与策略

WQ(s,a)=θlogπθ(s,a).

我知道对于给定的策略函数,我们可以推导出它的梯度,并乘以参数得到值函数πθ(s,a)θlogπθ(s,a)WQ(s,a)=θlogπθ(s,a)W

然而,构建更具表现力的价值函数更为实际,例如深度网络;这打破了上面定义的兼容条件。结果,价值函数逼近器不能再使策略梯度精确。

我的问题是,当兼容性假设不成立时,理论性质是什么?如何分析这个问题?

0个回答
没有发现任何回复~