回归与分类按利润排名

数据挖掘 机器学习 分类 回归
2022-01-30 12:58:00

假设我有 10,000 个客户,我希望在我的下一个活动中有 100 个响应者,并且有预算向 5k 发送一封信。

我有过去回复的人花了多少钱的数据,我有兴趣从我的 5k 封信中获得最多的美元(即理想情况下,我找到了 100 个回复者,但如果没有,我想找到那些留下更多钱的人) .

我创建了一个回归模型和一个分类模型(如果他们花钱,则为 1 - 即在过去做出回应 - 否则为 0)。运行机器人模型后,我发现在 10k 的测试样本中,如果我选择按概率(用于分类模型)和回归中的预期数量排序的前 5k,回归模型表现更好(不评估有多少响应者他们找到了,但他们从被选中的人中找到了多少)。

根据我的上下文数量是否有意义?我曾预计分类模型会表现得更好,但无法弄清楚为什么回归模型在我的示例中名列前茅。

非常感谢你!!

2个回答

鉴于我认为的上下文,这实际上并不太令人惊讶。将观察分类为“1”=过去花钱,“0”=过去没有花钱会导致您丢失对您而言很重要的信息;也就是每个人给的钱的数量。

例如,想象一下这两种情况。在一种情况下,您将您的信寄给 10 个人,所有 10 个人每人寄回 100 美元。使用分类方案,这十个人都是“1”。在第二种情况下,您再次将您的信发送给 10 个人,但现在只有 10 个人回复。然而,这个人寄回了一张 10,000 美元的支票。从纯利润的角度来看,显然第二种选择更优越。

最终,您的分类和回归模型都回答了两个不同的问题。您的分类模型只是预测某人花费任何金额的可能性,(无论如何,通过您如何表达问题)无论是 10 美元还是 10,000,000 美元,分类模型在两者之间没有区别(正如您所说它)。回归模型预测每个用户预计花费的确切金额,如果我正确阅读您的问题,这就是您关心的。

如果您想让问题的范围更近,也许可以尝试在您的分类模型中定义为“1”如果人们花费了一些可盈利的金额,如果没有,则定义为“0”。虽然我不太同意这样做(您通过“存储”连续变量以这种方式丢失信息,而且,为什么让问题变得更难?)您可能会得到“更接近”的结果。

当您将此作为分类问题时,您会丢弃信息。你认为花费一美元的人与花费数十亿美元的人是一样的,而前者更像是什么都不花的人。

重要的是这个人花了多少钱,而不仅仅是他们是否花钱。一些大手笔的消费者可能会弥补将人们误归为消费者的一些错误。如果五个人花一美元,那对你来说还不如四个什么都不花的人和五分之一花 50 美元的人。