对二元/多类分类的损失函数进行正则化是否有意义?

机器算法验证 机器学习 神经网络 分类 卷积神经网络 火车
2022-03-25 14:21:02

在讨论线性回归时,众所周知,您可以添加正则化项,例如,

λw2(Tikhonov regularization)

到经验误差/损失函数。

然而,当涉及到二元/多类训练时,正则化似乎没有得到充分讨论。

例如,我在网上浏览了数百个用于 CNN 训练的代码示例,但没有一个包含交叉熵损失函数的正则化术语。

这让我想知道几件事:

  1. 为二元/多类分类训练的损失函数添加正则化有意义吗?

  2. 如果是这样,什么类型的正则化是有意义的,为什么?

  3. 如果不是,为什么不呢?

希望有人能解答。

1个回答

根据您尝试对 CNN 执行的操作,正则化可能确实有意义。通过正则化修剪网络以使其稀疏有两个主要优点:

  • 它简化了网络,使训练和计算更快更容易;
  • 它可以防止过度拟合,并确保您的网络能够很好地概括新数据。

达到这些目标的一种直观方法是执行正则化,它惩罚不严格等于 0 的参数。这会导致网络中的稀疏性。此过程在以下论文中进行了描述:https ://arxiv.org/abs/1712.01312L0

作者还讨论了其他类型的正则化(即正则化)。L1