在学习批量标准化时,我在想为什么我们不能通过使用适当的激活函数来解决“梯度规模问题”?
就像我们不能延迟和缩放激活函数而不是缩放整个数据集并确保通过它保留方差吗?
在学习批量标准化时,我在想为什么我们不能通过使用适当的激活函数来解决“梯度规模问题”?
就像我们不能延迟和缩放激活函数而不是缩放整个数据集并确保通过它保留方差吗?
您所描述的内容听起来很像标度指数线性单元 (SELU),它是自归一化神经网络的核心,在 NIPS 2017 上进行了介绍。
这里的简短摘要是:
如果输入的均值和方差在某个范围内,那么输出的均值和方差应该(1)也在该范围内,并且(2)在迭代应用激活函数后收敛到一个固定点。
你可能想看看reddit 的帖子评论。如果您想完全理解它们,可以继续阅读 arxiv 预印本长达 90 页的附录。
他们在展示时受到了很多关注,但我认为他们没有达到预期,因为最近似乎没有人在互联网上谈论他们。