伯努利分布的参数是如何学习的?

人工智能 机器学习 概率分布 权重
2021-11-16 01:25:01

在论文Deconstructing Lottery Tickets: Zeros, Signs, and the Supermask中,他们通过将掩码参数设置为Mi=Bern(σ(vi)). 在哪里M是参数掩码(f(x;θ,M)=f(x;Mθ),Bern是伯努利采样器,σ是 sigmoid 函数,并且vi是一些可训练的参数。

在论文中,他们学习vi使用新元。我想知道他们是如何做到这一点的,因为没有重新参数化技巧,就像我在文献中看到的其他一些分布一样(例如:正常)。

1个回答

我收到了论文作者的回复。

正如预期的那样,伯努利采样器是不可微的,因此他们使用采样器梯度的期望值作为近似值。

dLdvi=dLdBern(σ(vi))dBern(σ(vi))dσ(vi)dσ(vi)dvidLdBern(σ(vi))dE[Bern(σ(vi))]dσ(vi)dσ(vi)dvi=dLdBern(σ(vi))dσ(vi)dσ(vi)dσ(vi)dvi=dLdBern(σ(vi))1dσ(vi)dvi

所以答案就这么简单。