在讨论线性回归时,众所周知,您可以添加正则化项,例如,
到经验误差/损失函数。
然而,当涉及到二元/多类训练时,正则化似乎没有得到充分讨论。
例如,我在网上浏览了数百个用于 CNN 训练的代码示例,但没有一个包含交叉熵损失函数的正则化术语。
这让我想知道几件事:
为二元/多类分类训练的损失函数添加正则化有意义吗?
如果是这样,什么类型的正则化是有意义的,为什么?
如果不是,为什么不呢?
希望有人能解答。
在讨论线性回归时,众所周知,您可以添加正则化项,例如,
到经验误差/损失函数。
然而,当涉及到二元/多类训练时,正则化似乎没有得到充分讨论。
例如,我在网上浏览了数百个用于 CNN 训练的代码示例,但没有一个包含交叉熵损失函数的正则化术语。
这让我想知道几件事:
为二元/多类分类训练的损失函数添加正则化有意义吗?
如果是这样,什么类型的正则化是有意义的,为什么?
如果不是,为什么不呢?
希望有人能解答。
根据您尝试对 CNN 执行的操作,正则化可能确实有意义。通过正则化修剪网络以使其稀疏有两个主要优点:
达到这些目标的一种直观方法是执行正则化,它惩罚不严格等于 0 的参数。这会导致网络中的稀疏性。此过程在以下论文中进行了描述:https ://arxiv.org/abs/1712.01312
作者还讨论了其他类型的正则化(即正则化)。