由于leaky relu 不会导致任何值变为 0,因此训练总是继续进行。我想不出它有什么缺点。
然而,在实际实践中,Leaky relu 不如 Relu 受欢迎。有人能说出为什么吗?
由于leaky relu 不会导致任何值变为 0,因此训练总是继续进行。我想不出它有什么缺点。
然而,在实际实践中,Leaky relu 不如 Relu 受欢迎。有人能说出为什么吗?
从我的经验来说,两者的表现几乎是一样的。这可能取决于问题。
引入 LeakyReLU 是为了解决梯度消失问题,但它引入了另一个超参数,即斜率。如果你想挤出更多的模型性能,你可以使用 LeakyReLU 并调整斜率参数,但这又会带来潜在的过度拟合成本。
Leaky relu 是一种克服梯度消失的方法,但是当您将斜率从 0 增加到 1 时,您的激活函数变为线性,您可以尝试在负部分绘制具有不同斜率的泄漏 relu。问题是失去非线性,代价是具有更好的梯度反向传播。如果用relu能得到不错的结果,改用leaky relu可能会导致更糟。