数据挖掘 - 什么时候精度比召回更重要？ - 吾爱随笔录

什么时候精度比召回更重要？

数据挖掘机器学习评估

2021-09-29 21:04:45

谁能给我一些精度很重要的例子和召回很重要的一些例子？

4个回答

对于罕见的癌症数据建模，任何不考虑假阴性的事情都是犯罪。召回是比精确度更好的衡量标准。
对于 YouTube 推荐，误报不是问题。这里的精度更好。

当回忆更重要时，我可以给你我的真实案例：

我们每周都有成千上万的免费客户在我们的网站上注册。呼叫中心团队想给他们都打电话，但不可能，所以他们让我选择那些有机会成为买家的人（高温是我们所说的）。我们不在乎打电话给一个不会买的人（所以精度并不重要），但对我们来说非常重要的是，所有高温的人总是在我的选择中，所以他们不会不买。这意味着我的模型需要具有高召回率，无论精度是否下降。

我希望它有帮助！米格尔。

哪个更重要取决于每个错误的成本是多少。

精度往往涉及直接成本；您拥有的误报越多，您拥有的每个真阳性的成本就越高。如果您的成本很低，那么精度就没有那么重要了。例如，如果您有 100 万个电子邮件地址，并且向所有这些地址发送一封电子邮件将花费 10 美元，那么您可能不值得花时间尝试识别最有可能回复的人，而不是仅仅向所有这些人发送垃圾邮件。

另一方面，回忆往往涉及机会成本；每次出现假阴性时，您都在放弃机会。因此，当附加正确识别的边际价值较小时，召回是最不重要的，例如有多个机会，它们之间几乎没有差异，只能追求有限的数量。例如，假设你想买一个苹果。店里有 100 个苹果，其中 10 个是坏的。如果你有一种区分坏苹果的方法漏掉了 80% 的好苹果，那么你将识别出大约 18 个好苹果。通常，召回 20% 会很糟糕，但如果你只想要 5 个苹果，那么错过其他 72 个苹果并不重要。

因此，在以下情况下，召回是最重要的：

机会的数量很少（如果只有 10 个好苹果，那么您不太可能找到 5 个召回率只有 20% 的好苹果）
机会之间存在显着差异（如果某些苹果比其他苹果更好，那么 20% 的召回率足以获得 5 个好苹果，但它们不一定是最好的苹果）
或
即使对于大量机会，机会的边际收益仍然很高。例如，虽然大多数购物者不会从 18 个以上的好苹果中获得太多好处，但商店希望有 18 个以上的苹果可供出售。

因此，当采取行动的成本很高但不采取行动的成本很低时，精确度将比召回更重要。请注意，这是每位候选人采取/不采取行动的成本，而不是“采取任何行动的成本”与“根本不采取任何行动的成本”。在苹果的例子中，这是购买/不购买特定苹果的成本，而不是购买一些苹果的成本与不购买任何苹果的成本；不买一个特定的苹果的成本很低，因为还有很多其他的苹果。由于购买一个坏苹果的成本很高，但放弃一个好苹果的成本很低，因此在该示例中，精度更为重要。另一个例子是当有很多类似的候选人时招聘。

当行动成本低时，召回比精确更重要，但放弃候选人的机会成本很高。有我之前给出的垃圾邮件示例（错过电子邮件地址的成本并不高，但向不回复的人发送电子邮件的成本更低），另一个例子是确定候选人流感疫苗：给不需要的人打流感疫苗，它要花几美元，不要给确实需要的人，他们可能会死。因此，医疗保健计划通常会为每个人提供流感疫苗，完全不考虑精确度。

尽管在某些情况下，召回可能比精度更重要（反之亦然），但您需要两者都获得更具可解释性的评估。

例如，正如@SmallChess 所指出的，在医学界，对于初步诊断，假阴性通常比假阳性更具灾难性。因此，人们可能会认为召回是一种更重要的衡量标准。然而，你可能有 100% 的召回率但有一个无用的模型：如果你的模型总是输出一个积极的预测，它会有 100% 的召回率，但完全没有信息。

这就是我们查看多个指标的原因：

其它你可能感兴趣的问题

上一篇在 Python 中计算 KL 散度下一篇我需要学习 Hadoop 才能成为数据科学家吗？