将控制变量与对立变量结合起来有什么好处,如果是这样,应该怎么做?
在我的具体情况下,我想在本文的公式中添加控制变量: https ://arxiv.org/abs/1804.02395 ,第 2.1 节。简而言之,这里的想法是使用对立变量来减少预期收益梯度的方差。
同时,控制变量被广泛用于策略梯度算法。我怎样才能从这两种方法中受益?
我最初的想法是为每个对立变量添加基线。
将控制变量与对立变量结合起来有什么好处,如果是这样,应该怎么做?
在我的具体情况下,我想在本文的公式中添加控制变量: https ://arxiv.org/abs/1804.02395 ,第 2.1 节。简而言之,这里的想法是使用对立变量来减少预期收益梯度的方差。
同时,控制变量被广泛用于策略梯度算法。我怎样才能从这两种方法中受益?
我最初的想法是为每个对立变量添加基线。
使用对立变量来改进的 Monte Carlo 近似意味着从 ,生成相关实现,使得
虽然这个想法很吸引人,但很难在实际复杂的环境中实现设置,因为为给定的的集合] 建立方差减少是具有挑战性的。
假设已经构建了这样一个对立的方案 (1),如果一个控制变量可用于模型,即一个函数使得和,之间的(总体)负相关不会自动转换为的。因此,即使使得
它也不一定意味着那
因为可能是正相关的。