数据挖掘 - 关于偏差-方差权衡和优化方法的问题 - 吾爱随笔录

数据挖掘机器学习方差偏见

2021-09-16 10:51:40

所以我想知道，例如，当面临高偏差或高方差带来的问题时，如何才能最好地优化他们试图构建的模型。现在，当然，您可以使用正则化参数来获得令人满意的结果，但我想知道是否可以在不依赖正则化的情况下做到这一点。

如果 b 是模型的偏差估计量，而 v 是其方差，那么尝试最小化 b*v 是否有意义？

1个回答

有很多方法可以最小化偏差和方差，尽管流行的说法并不总是一种权衡。

高偏差的两个主要原因是模型容量不足和由于训练阶段未完成而导致的欠拟合。例如，如果您有一个非常复杂的问题要解决（例如图像识别）并且您使用低容量模型（例如线性回归），则该模型将具有较高的偏差，因为该模型无法掌握问题。

高方差的主要原因是对训练集的过度拟合。

话虽如此，有一些方法可以减少 ML 模型的偏差和方差。例如，实现这一目标的最简单方法是获取更多数据（在某些情况下甚至合成数据也有帮助）。

我们在实践中倾向于做的是：

首先，我们增加模型的容量，以尽可能减少训练集上的方差。换句话说，我们想让模型过拟合（甚至在训练集上达到 0 的损失）。这样做是因为我们要确保模型具有充分理解数据的能力。
然后我们尝试减少偏差。这是通过正则化（提前停止、规范惩罚、辍学等）完成的。

其它你可能感兴趣的问题