在论文Variational Bayesian Inference with Stochastic Search中提到,以下近似的方差可能非常大,但我不太明白为什么会这样。
这似乎是一个众所周知的问题,其他论文中也提到了类似的结果,例如Neural Variational Inference and Learning in Belief Networks。
在论文Variational Bayesian Inference with Stochastic Search中提到,以下近似的方差可能非常大,但我不太明白为什么会这样。
这似乎是一个众所周知的问题,其他论文中也提到了类似的结果,例如Neural Variational Inference and Learning in Belief Networks。
很好的问题,但我不确定是否存在一个好的答案(此时)。事实上,这个估计器(也称为REINFORCE估计器、评分函数估计器 [SFE] 和似然比估计器)已知具有非常高的方差,这是 RL 以及其他问题(例如,通过离散潜变量模型进行区分)。
我认为有三个原因,直观地说,为什么它具有非常高的方差。
我们只使用的值,而不使用它的导数(通常是未知的或不存在的)。换句话说,估计器无法获得有关局部变化的任何信息。大概,如果我们知道我们的改变将如何无限地改变,我们可以做得更好;即,我们在的变化将如何影响(我们从概率上知道),以及扰动将如何影响。(然后我们基本上可以调用链式规则)。基本上,我们只是没有太多信息。因为我们不知道变化,我们不能将它构建到估计器中(并且我们的估计器是梯度的,即测量函数应该如何变化的东西)。
SFE 是非常通用的,除了需要能够评估它之外,对没有任何要求。我认为它必须为这种普遍性付出代价是很直观的。这与重新参数化技巧不同,它需要和/或的某些属性,但可能具有较低的方差(例如,参见 [1])。
SFE 是公正的。有一些密切相关的方法会牺牲此属性以大大降低方差。我认为这种估计器存在一些偏差 - 方差权衡是很直观的。在随机最优控制理论的基础上,事实证明可以使用控制变量基线来减少方差而不引入偏差(例如,[2])。
SFE 的主要替代方案是重新参数化技巧(与路径导数估计器密切相关,例如参见 [3,4])。然而,如果真的是一个黑盒函数,它就不能轻易应用(不像 SFE)。此外,通过离散变量的反向传播需要“软化”变量(例如,concrete [5] 或 Gumbel-Softmax [6] 方法),这意味着可以将一些偏差引入估计器。然而,根据经验,得到的估计量已知具有低得多的方差和更稳定的(即在应用中)。
我说是凭经验说的,因为众所周知,理论上 SFE 在某些情况下可能具有较低的方差(参见 [7],第 34 页)。相同的参考给出了 SFE 更差的条件(在高斯情况下)。换句话说,理论上可能(在某些情况下)SFE 的方差低于其替代品,但实际上这似乎并非如此(再次参见 [1])。
参考文献
[1]重新参数化技巧的方差降低特性,Xu 等人,2019
[2]通过空隙反向传播:优化黑盒梯度估计的控制变量,Grathwohl 等人,2017
[3]超越重新参数化技巧的路径导数, Jankowiak & Obermeyer, 2018
[4] Implicit Reparameterization Gradients , Figurnov 等人, 2018
[5]具体分布:离散随机变量的连续松弛, Maddison 等人, 2016
[6]使用 gumbel-softmax 进行分类重新参数化, Jang 等人, 2016 (摘要)
[7]深度学习中的不确定性(论文),Gal,2016
这是一个相当活跃的研究领域。也可以看看: