在论文Deconstructing Lottery Tickets: Zeros, Signs, and the Supermask中,他们通过将掩码参数设置为. 在哪里是参数掩码(),是伯努利采样器,是 sigmoid 函数,并且是一些可训练的参数。
在论文中,他们学习使用新元。我想知道他们是如何做到这一点的,因为没有重新参数化技巧,就像我在文献中看到的其他一些分布一样(例如:正常)。
在论文Deconstructing Lottery Tickets: Zeros, Signs, and the Supermask中,他们通过将掩码参数设置为. 在哪里是参数掩码(),是伯努利采样器,是 sigmoid 函数,并且是一些可训练的参数。
在论文中,他们学习使用新元。我想知道他们是如何做到这一点的,因为没有重新参数化技巧,就像我在文献中看到的其他一些分布一样(例如:正常)。
我收到了论文作者的回复。
正如预期的那样,伯努利采样器是不可微的,因此他们使用采样器梯度的期望值作为近似值。
所以答案就这么简单。