在Compatible Function Approximation Theorem中,需要以下条件才能使策略梯度精确。
有一个条件是价值函数逼近器与策略
我知道对于给定的策略函数,我们可以推导出它的梯度,并乘以参数得到值函数。
然而,构建更具表现力的价值函数更为实际,例如深度网络;这打破了上面定义的兼容条件。结果,价值函数逼近器不能再使策略梯度精确。
我的问题是,当兼容性假设不成立时,理论性质是什么?如何分析这个问题?
在Compatible Function Approximation Theorem中,需要以下条件才能使策略梯度精确。
有一个条件是价值函数逼近器与策略
我知道对于给定的策略函数,我们可以推导出它的梯度,并乘以参数得到值函数。
然而,构建更具表现力的价值函数更为实际,例如深度网络;这打破了上面定义的兼容条件。结果,价值函数逼近器不能再使策略梯度精确。
我的问题是,当兼容性假设不成立时,理论性质是什么?如何分析这个问题?