什么时候应该使用 L1、L2 正则化而不是 dropout 层,因为两者都具有减少过度拟合的相同目的?
数据挖掘
喀拉斯
过拟合
正则化
辍学
2021-10-12 23:34:58
1个回答
我不确定是否会有一种正式的方式来显示在哪种情况下哪个是最好的——简单地尝试不同的组合可能是最好的!
值得注意的是,Dropout 实际上不仅仅是提供一种正则化形式,因为它确实增加了网络的鲁棒性,允许它尝试许多不同的网络。这是真的,因为随机停用的神经元在前向/后向传递中基本上被移除,从而产生与使用完全不同的网络相同的效果!查看这篇文章,了解有关 dropout 层之美的更多信息。
相对 更容易解释,只需注意 更彻底地处理异常值 - 为这些点返回更大的错误。在这里查看更详细的比较。
其它你可能感兴趣的问题