什么时候精度比召回更重要?

数据挖掘 机器学习 评估
2021-09-29 21:04:45

谁能给我一些精度很重要的例子和召回很重要的一些例子?

4个回答
  • 对于罕见的癌症数据建模,任何不考虑假阴性的事情都是犯罪。召回是比精确度更好的衡量标准。
  • 对于 YouTube 推荐,误报不是问题。这里的精度更好。

当回忆更重要时,我可以给你我的真实案例:

我们每周都有成千上万的免费客户在我们的网站上注册。呼叫中心团队想给他们都打电话,但不可能,所以他们让我选择那些有机会成为买家的人(高温是我们所说的)。我们不在乎打电话给一个不会买的人(所以精度并不重要),但对我们来说非常重要的是,所有高温的人总是在我的选择中,所以他们不会不买。这意味着我的模型需要具有高召回率,无论精度是否下降。

我希望它有帮助!米格尔。

哪个更重要取决于每个错误的成本是多少。

精度往往涉及直接成本;您拥有的误报越多,您拥有的每个真阳性的成本就越高。如果您的成本很低,那么精度就没有那么重要了。例如,如果您有 100 万个电子邮件地址,并且向所有这些地址发送一封电子邮件将花费 10 美元,那么您可能不值得花时间尝试识别最有可能回复的人,而不是仅仅向所有这些人发送垃圾邮件。

另一方面,回忆往往涉及机会成本;每次出现假阴性时,您都在放弃机会。因此,当附加正确识别的边际价值较小时,召回是最不重要的,例如有多个机会,它们之间几乎没有差异,只能追求有限的数量。例如,假设你想买一个苹果。店里有 100 个苹果,其中 10 个是坏的。如果你有一种区分坏苹果的方法漏掉了 80% 的好苹果,那么你将识别出大约 18 个好苹果。通常,召回 20% 会很糟糕,但如果你只想要 5 个苹果,那么错过其他 72 个苹果并不重要。

因此,在以下情况下,召回是最重要的:

  • 机会的数量很少(如果只有 10 个好苹果,那么您不太可能找到 5 个召回率只有 20% 的好苹果)
  • 机会之间存在显着差异(如果某些苹果比其他苹果更好,那么 20% 的召回率足以获得 5 个好苹果,但它们不一定是最好的苹果)

  • 即使对于大量机会,机会的边际收益仍然很高。例如,虽然大多数购物者不会从 18 个以上的好苹果中获得太多好处,但商店希望有 18 个以上的苹果可供出售。

因此,当采取行动的成本很高但不采取行动的成本很低时,精确度将比召回更重要。请注意,这是每位候选人采取/不采取行动的成本,而不是“采取任何行动的成本”与“根本不采取任何行动的成本”。在苹果的例子中,这是购买/不购买特定苹果的成本,而不是购买一些苹果的成本与不购买任何苹果的成本;不买一个特定的苹果的成本很低,因为还有很多其他的苹果。由于购买一个坏苹果的成本很高,但放弃一个好苹果的成本很低,因此在该示例中,精度更为重要。另一个例子是当有很多类似的候选人时招聘。

当行动成本低时,召回比精确更重要,但放弃候选人的机会成本很高。有我之前给出的垃圾邮件示例(错过电子邮件地址的成本并不高,但向不回复的人发送电子邮件的成本更低),另一个例子是确定候选人流感疫苗:给不需要的人打流感疫苗,它要花几美元,不要给确实需要的人,他们可能会死。因此,医疗保健计划通常会为每个人提供流感疫苗,完全不考虑精确度。

尽管在某些情况下,召回可能比精度更重要(反之亦然),但您需要两者都获得更具可解释性的评估。

例如,正如@SmallChess 所指出的,在医学界,对于初步诊断,假阴性通常比假阳性更具灾难性。因此,人们可能会认为召回是一种更重要的衡量标准。然而,你可能有 100% 的召回率但有一个无用的模型:如果你的模型总是输出一个积极的预测,它会有 100% 的召回率,但完全没有信息。

这就是我们查看多个指标的原因: