在机器学习算法中减少过度拟合的一种常见方法是使用惩罚大权重(L2)或非稀疏权重(L1)等的正则化项。这种正则化如何减少过度拟合,尤其是在分类算法中?可以用数学方法证明这一点吗?
正则化如何减少过拟合?
机器算法验证
正则化
2022-02-03 04:42:02
1个回答
这与偏差-方差权衡有关。预期误差可以分解为
其中偏差是我们估计量的系统偏差,,从真值,即, 在哪里是真正的估计量,方差本质上是我们的估计量对训练集中偏差的敏感程度。这term 是残余噪声项;这个术语是不可约的,并且不能减少对数学的影响(如果您的样本是噪音,那么您可能可以在收集数据方面做一些事情)。
当您的模型过于复杂而无法泛化新数据时,就会发生过度拟合。当您的模型完美拟合您的数据时,它不太可能很好地拟合新数据。
当您的模型不够复杂时,就会发生欠拟合。这会在模型中引入偏差,从而与真正的基础估计量存在系统偏差。
正则化试图通过简化估计量来减少估计量的方差,这会增加偏差,从而降低预期误差。这通常是在问题不适定的情况下完成的,例如,当参数的数量大于样本的数量时。
您是否成功减少预期方差取决于您的估计器和使用的正则化。例如,对于多元线性回归和正则化,可以证明存在通过正确选择正则化参数来减少预期误差的解决方案。
其它你可能感兴趣的问题