偏差-方差权衡与精度和召回率

机器算法验证 方差 偏见 精确召回 精确
2022-04-05 12:57:39

谁能解释偏差方差权衡和精确召回权衡之间的联系。它们实际上是同一件事吗?

2个回答

好吧,两者之间有相似之处,对于均方误差情况,模型的误差是由于其偏差和方差造成的。

MSE(W)=Bias2(W)+Var(W)

在哪里,Bias(W)=E[W]θ, 如果θ是真正的参数。

如果模型能够很好地拟合训练数据集,那么它的偏差就会很低。但这不一定是一件好事,因为如果它是一个非常高维的模型或有大量参数,它可能会有非常高的方差。本质上,模型只是“记忆”数据及其参数,而不是从中进行概括。另一方面,一个不太强大的模型可能在训练数据上表现不佳,但它的泛化效果更好。这样的模型将具有更高的偏差和更低的方差。

现在继续讨论精确度和召回率,它们分别与最小化误报和漏报有关。在极端情况下,您可以拥有一个简单地记住训练集的分类器,在这种情况下,您的召回率接近甚至等于1和接近的精度0. 高召回率和低精度模型对应于具有高方差和低偏差的情况。类似地,您可以有一个模型得到一些假阴性但得到更少的假阳性,即它是高精度 - 低召回率,然后它对应于高偏差 - 低方差的情况。

但是,您需要在这两种情况下取​​得适当的平衡。目标是减少回归案例中的总误差,同时提高分类场景中的准确率和召回率(F-score)。专注于优化准确度而不是 F 分数是错误的,因为分类准确度是对类的偏态分布的有偏测量。

一般来说,精确召回权衡被视为我们认为积极的歧视阈值。更严格/挑剔/悲观的阈值将导致更高的精度(以忽略可能的正面案例为代价)。更宽松/乐观的阈值将导致更高的召回率(以误报为代价)。

Bias-Variance 更多地与模型复杂性有关,不必局限于分类任务的框架。一个更简单(或更多偏差)的模型仍然需要决定如何在正负类之间设置阈值,更复杂的模型(或更多方差)也是如此。

虽然权衡感觉相似,但它们有点不同。如果您在经验风险最小化框架中查看误差,则偏差-方差权衡更为具体:预期误差 = 不可约误差 + 偏差^2 + 方差。据我所知,没有这样的精确召回方程可以清楚地描述这种权衡。我相信总的来说,它更像是一种观察到的东西,而不是“证明”的东西。

我喜欢思考的方式是,精确度/召回率都集中在积极的类别上。它们在列联表中的公式分别为 TP/P_est = TP/(TP + FP) 和 TP/P = TP/(TP + FN)。从字面上看,除了分母之外,关于它们的一切都是相同的。Precision 会惩罚 FP,Recall 会惩罚 FN。因为他们都只专注于积极的班级,所以他们就像在积极的班级上相互拉锯一样。

注:TP = 真阳性。FP = 误报。FN = 假阴性。P_est = 总估计/预测阳性。P = 实际阳性总数。