ReLU、Swish 和 Mish 的输出格局

数据挖掘 深度学习 美国有线电视新闻网 激活函数
2022-03-04 14:48:55

我在原始的 Mish 论文(https://arxiv.org/abs/1908.08681)中找到了下图。

在此处输入图像描述

我知道这个数字描述了损失是如何变化的,如果变化是平滑的。但是论文没有描述它是如何生成的,图中的颜色是什么意思(没有颜色条),或者沿 x 和 y 轴绘制的内容是什么。任何人都可以在这方面提供帮助吗?

1个回答

从您引用的文章中,我发现这个数字与您的相似。

在此处输入图像描述

在文章的同一页上,他们说:

如图 3 所示,平滑的轮廓也有助于更好的梯度流,其中使用 ReLU 和 Mish 的五层随机初始化神经网络的输出景观被可视化。 景观是通过将坐标传递给一个五层随机初始化的神经网络来生成的,该神经网络输出相应的标量大小与 Mish 的输出景观的平滑轮廓相比,ReLU 的输出景观有很多急剧的转变。

您的图(和上面的图)似乎没有显示损失情况(即文章中的图 4),而是使用不同激活函数的全局神经网络的情况。我猜他们用来生成这些图形的神经网络有 2 个输入(绘图的坐标)、3 个隐藏层和一个标量输出。图中的颜色对应于标量输出值。

作者提供这些数字是因为:

更平滑的输出环境表明平滑的损失环境 [...]

这是我对文章的理解,希望对你有所帮助。