如何将控制变量与对立变量结合起来

机器算法验证 蒙特卡洛 强化学习
2022-03-26 11:09:38

将控制变量与对立变量结合起来有什么好处,如果是这样,应该怎么做?

在我的具体情况下,我想在本文的公式中添加控制变量: https ://arxiv.org/abs/1804.02395 ,第 2.1 节简而言之,这里的想法是使用对立变量来减少预期收益梯度的方差。

同时,控制变量被广泛用于策略梯度算法。我怎样才能从这两种方法中受益?

我最初的想法是为每个对立变量添加基线。

1个回答

使用对立变量来改进的 Monte Carlo 近似意味着从 ,生成相关实现,使得 虽然这个想法很吸引人,但很难在实际复杂的环境中实现设置,因为为给定的的集合] 建立方差减少是具有挑战性的。EF[h(X)]FX1,,Xn

(1)var(h(X1)++h(Xn))<var(h(X1))++var(h(Xn))
hh

假设已经构建了这样一个对立的方案 (1),如果一个控制变量可用于模型,即一个函数使得之间的(总体)负相关不会自动转换为的。因此,即使使得 它也不一定意味着那 因为h0()EF[h0(X)]=0corr(h(X),h0(X))0h(Xi)h(Xi)+αh0(Xi)α

(2)var(h(Xi)+αh0(Xi))<var(h(Xi))
var{i=1nh(Xi)+αh0(Xi)}<i=1nvar(h(Xi))
h(Xi)+αh0(Xi)可能是正相关的。