机器算法验证 - 为什么必须在偏差和方差之间进行权衡？ - 吾爱随笔录

为什么必须在偏差和方差之间进行权衡？

机器算法验证假设检验标准错误无偏估计器偏见

2022-03-10 13:32:20

显然，学习算法在产生假设时必须在偏差和方差之间进行权衡。偏差是指与数据的系统偏差。方差是指将假设应用于不同的训练集时由于波动引起的误差。

为什么一定要在这里取舍？

4个回答

它导致误差函数在两个方面的分解，代表“两个相反的力量”，从某种意义上说，为了减少偏差误差，您需要您的模型考虑更多拟合数据的可能性。但另一方面，这增加了方差误差。此外，反过来：如果您的模型拟合得太多（开始拟合噪声，您可以将其视为单个样本的非系统变化），那么您需要强制您的参数不要变化太大，从而引入偏见。

用更直观的术语来说：偏差误差是系统性错误，方差误差是关于学习样本的所有微小的、偶然的变化。

看看这篇不错的文章了解详细信息， http://scott.fortmann-roe.com/docs/BiasVariance.html

这里有一些很好的答案。让我通过提供一个简单的答案来填补一个小空白： “为什么必须在偏差和方差之间进行权衡？”

答案相当简单。基于样本数据的总体参数估计值会因样本而异，因为样本数据会有所不同。这意味着在重复抽样下会有一个参数估计分布。要了解估计总体参数的不同算法的优缺点，我们需要了解它们的抽样分布的特性。具体来说，我们想知道采样分布是否以真值为中心（即，是否有偏差），并且我们想知道采样分布有多“宽”（即，估计值与真值相差多远）平均——这是方差部分）。

现在碰巧会有一个估计过程在所有可能的无偏估计过程中具有最小的方差，但通常也会有另一个估计过程具有更小的方差（但会出现偏差）。在这种情况下，分析师面临着关于他们想要使用哪种程序的决定，这取决于在这种情况下，无偏性或较低的方差对他们更重要。

总而言之：只要存在不止一种可能的估计程序，其中所有无偏程序中方差最小的程序不是总体方差最小的程序，就必须在偏差和方差之间进行权衡。

一般来说，这是关于在 a) 假设 NULL 为真但被拒绝的情况和 b) 假设 NULL 错误但未能被拒绝的情况之间找到折衷方案。

这是一个非常模糊的话题，但仅限于假设检验，我建议通过：涉及I 型和 II 型错误。

而且，如果可能的话，请提及您所指的学习算法。谢谢！

只要指定了非参数模型，就会存在偏差/方差权衡。机器学习算法可用于确定非参数模型的 bin 宽度。要了解为什么存在偏差-方差权衡，请考虑一个玩具示例，我们将体重建模为卡路里的函数。

想象一下，您的自变量（消耗的卡路里）被持续评估，范围从 2,000 到 4,000 卡路里。

如果我们必须猜测从整个样本中随机抽取的特定个体的平均体重，我们最好的猜测将是样本中所有卡路里消耗水平的平均体重。这个猜测可能不是我们能想到的最准确的猜测，因为它没有考虑任何个人特征。虽然猜测可能不是最准确的（可能有偏差），但它的方差也很低。这可能是有偏差的，因为无论我们被告知一个人一天消耗 0 卡路里还是 1,000,000 卡路里，我们对体重的预测都是相同的。方差很低，因为如果我们的样本量很大，添加或删除一个观察值不会改变我们的样本平均权重。

如果我们考虑卡路里消耗，我们的猜测会好一点。考虑运行回归，我们将体重建模为截距项和描述个人每日卡路里摄入量的项的函数。截距告诉我们样本中的平均重量。“卡路里”的系数告诉我们，对于每天消耗的每额外卡路里，我们对体重的最佳猜测将改变“贝塔”。

但是，非参数回归更进一步。考虑这个想法：额外卡路里的边际效应取决于个人通常在一天内消耗多少卡路里。考虑两个案例——一个憔悴的青少年与一名奥林匹克运动员相比。也许这个青少年一天只消耗 1,500 卡路里。因为这个量是不足的，所以额外卡路里的边际效应很大。每天为孩子吃更多的食物意味着体重增加（以一种可能健康的方式）。就奥林匹克运动员而言，也许他们会因为严格的训练计划而烧掉所有消耗的东西。在这种情况下，我们可以认为消耗额外的卡路里对体重的影响很小。

因此，也许增加的热量摄入对个体体重的边际效应会递减。

如果我们将其合并到我们的模型中，我们可能会创建“箱”，以更好地解释我们的因变量“体重”来划分我们的自变量“每日卡路里摄入量”。通常在创建非参数模型时，我们可能会假设我们的数据在每个 bin 中均匀分布。

首先在我们的模型中加入两个分类：一个用于“卡路里不足”（低于 2,500 卡路里/天）的个体，一个用于“卡路里充足”（高于 2,500 卡路里/天）的个体。将体重作为热量摄入的函数进行回归，以及“热量不足”和“热量充足”的指标变量可能会告诉我们一个更好的故事。我们可能会意识到卡路里和体重之间存在一种新的关系，并且我们关于“卡路里”的“Beta”系数现在已经改变，因为我们消除了一些偏差。但除此之外，我们还有新的边际效应。我们的指标变量的系数描述了额外卡路里的边际效应如何根据个人通常消耗的卡路里而变化。

通过创建垃圾箱，我们强制我们的模型“预测每个垃圾箱内的平均重量”。随着箱的宽度减小（随着我们的箱变小并且包含更小的卡路里摄入范围），每个箱中的平均重量会收敛到每个箱中观察到的重量，因为平均值基于更少的数据点范围更小。但是，较少的观察次数意味着该平均值具有较高的方差。改变一个观察值对我们在每个 bin 内的平均猜测有很大影响。

在极端情况下，我们可以创建只有一个观察值的 bin。这个 bin 的平均值将等于观察到的热量摄入水平，这意味着我们的估计器有 0 偏差。然而，方差非常大，因为我们在每个 bin 中的样本非常小（大小为 1），而且我们的平均值非常容易受到样本变化的影响。如果我们从人口中随机重新抽样，我们对特定箱的估计肯定会有所不同。我们的估计器有很多方差，但没有偏差。

As the width of bins increases (as our bins get larger and include a larger range of caloric intake), the average weight in each bin may have additional bias. We are forcing the marginal effect of a calorie to be the same within a larger group of individuals, when in reality this may not be the case. However, adding or removing an observation within this bin has very little effect on our estimator (the variance of our estimator is very low).

因此，一般来说：非参数回归会受到偏差-方差权衡的影响。将数据划分为较小的 bin 意味着我们的每个 bin 的估计器将以我们的估计器具有高方差为代价而具有较小的偏差，而将数据划分为更大的 bin 意味着我们的每个 bin 的估计器将以拥有更多为代价而具有较小的方差偏见。考虑每个 bin 内的平均“猜测”属性以及它们将如何随着 bin 大小的变化而变化：一个 bin 中的 1 个数据点或观察值意味着一个“完美”平均值，该平均值非常容易受到数据变化的影响（大方差)，与 bin 中的无限数量的点相比，这意味着不完美的平均值（平均值不

其它你可能感兴趣的问题

上一篇时间序列分类：SVM、神经网络、随机森林或非参数模型下一篇偏相关解释