机器算法验证 - 偏差-方差权衡与精度和召回率 - 吾爱随笔录

偏差-方差权衡与精度和召回率

机器算法验证方差偏见精确召回精确

2022-04-05 12:57:39

谁能解释偏差方差权衡和精确召回权衡之间的联系。它们实际上是同一件事吗？

2个回答

好吧，两者之间有相似之处，对于均方误差情况，模型的误差是由于其偏差和方差造成的。

$MSE(W) = Bias^2(W) + Var(W)$

在哪里， $Bias(W) = E[W] - \theta$ ，如果 $\theta$ 是真正的参数。

如果模型能够很好地拟合训练数据集，那么它的偏差就会很低。但这不一定是一件好事，因为如果它是一个非常高维的模型或有大量参数，它可能会有非常高的方差。本质上，模型只是“记忆”数据及其参数，而不是从中进行概括。另一方面，一个不太强大的模型可能在训练数据上表现不佳，但它的泛化效果更好。这样的模型将具有更高的偏差和更低的方差。

现在继续讨论精确度和召回率，它们分别与最小化误报和漏报有关。在极端情况下，您可以拥有一个简单地记住训练集的分类器，在这种情况下，您的召回率接近甚至等于 $1$ 和接近的精度 $0$ . 高召回率和低精度模型对应于具有高方差和低偏差的情况。类似地，您可以有一个模型得到一些假阴性但得到更少的假阳性，即它是高精度 - 低召回率，然后它对应于高偏差 - 低方差的情况。

但是，您需要在这两种情况下取得适当的平衡。目标是减少回归案例中的总误差，同时提高分类场景中的准确率和召回率（F-score）。专注于优化准确度而不是 F 分数是错误的，因为分类准确度是对类的偏态分布的有偏测量。

一般来说，精确召回权衡被视为我们认为积极的歧视阈值。更严格/挑剔/悲观的阈值将导致更高的精度（以忽略可能的正面案例为代价）。更宽松/乐观的阈值将导致更高的召回率（以误报为代价）。

Bias-Variance 更多地与模型复杂性有关，不必局限于分类任务的框架。一个更简单（或更多偏差）的模型仍然需要决定如何在正负类之间设置阈值，更复杂的模型（或更多方差）也是如此。

虽然权衡感觉相似，但它们有点不同。如果您在经验风险最小化框架中查看误差，则偏差-方差权衡更为具体：预期误差 = 不可约误差 + 偏差^2 + 方差。据我所知，没有这样的精确召回方程可以清楚地描述这种权衡。我相信总的来说，它更像是一种观察到的东西，而不是“证明”的东西。

我喜欢思考的方式是，精确度/召回率都集中在积极的类别上。它们在列联表中的公式分别为 TP/P_est = TP/(TP + FP) 和 TP/P = TP/(TP + FN)。从字面上看，除了分母之外，关于它们的一切都是相同的。Precision 会惩罚 FP，Recall 会惩罚 FN。因为他们都只专注于积极的班级，所以他们就像在积极的班级上相互拉锯一样。

注：TP = 真阳性。FP = 误报。FN = 假阴性。P_est = 总估计/预测阳性。P = 实际阳性总数。

其它你可能感兴趣的问题

上一篇比较逻辑回归中系数的大小下一篇二项分布的 Berry-Esseen 界