对于群发邮件来说,召回比精确更重要吗?

数据挖掘 机器学习 预测建模 可能性 评估 信息检索
2022-03-14 07:50:12

例如,我为一个邮件活动构建了一个分类模型,该模型将应用于 1M 条记录。该模型的正面类别将是客户,而负面记录将是非客户。

对于邮件,我们选择前 100,000 条得分(最高预测概率)记录。我们预计回复率较低,但我们希望确保将邮件发送给所有预测最高的潜在客户。

我们将模型分数分成十分位数,并且只从十分位数 1(最高得分)中选择,我们会说它是 >= 0.10 的预测概率。该模型在此阈值处具有 95% 的召回率和 5% 的准确率。

在这种情况下获得尽可能高的召回率是否有意义?或者精度在这里很重要,我应该对此进行优化,或者只是一起优化它们。

我们的目标是在这 100k 中获得最多的客户转化,我们已经知道会有大量的误报,但我们希望尽可能多的真阳性。

1个回答

两者都不。您真正需要的是使概率估计准确。仅优化其中一个是不够的(您不能同时优化两个指标,因为更好的精度往往会导致更差的召回率,反之亦然)。

我建议你最小化交叉熵损失函数。这是为了帮助产生概率的准确估计。从某种意义上说,这将优化精度和召回率,并以特定方式权衡它们。具体情况取决于您使用的分类器。