活动结果的回归与预期值

数据挖掘 机器学习 分类 回归
2022-02-17 10:49:09

假设我有 10 万客户,我只能发送 1 万封贷款信,而且我确实有过去活动的信息,我知道我可以期待大约 100 名响应者。

如果我想在我的下一个竞选活动中获得金钱方面的最佳结果(即要求最高贷款的响应者),那么两者之间的区别是什么:

1) 用 0 为过去活动中没有回应的人创建一个回归模型,为那些做过的人创建贷款金额,并选择最高的 10k,或 2) 同上,但也创建一个分类模型并乘以回归与响应的概率,并选择 10k 最高的

我对这里的正确程序感到困惑任何帮助将不胜感激!

2个回答

对于这类问题,有特殊类型的回归模型。

给定个人的预期贷款金额是他们响应并取出某种类型的贷款的概率以及他们以他们的响应为条件而取出的贷款金额的函数。在数学上,我们可以将其视为贷款金额的期望值,可以这样表示:

E[loan amount]=Prob(response)E[amount|responded]+Prob(no response)E[amount|not responded]

(在您的情况下,您可能会假设在没有收到信的情况下,个人获得贷款的可能性为零,因此您可以在+运营商,如果是这样的话。)

所以你必须对这两个变量进行建模——概率和数量。问题是如何。如果您只是使用您概述的第一种方法,即对泊松或负二项式等建模计数的基本回归并在模型中包含 0,那么您将假设零和非零(正值)来自相同数据生成过程,由相同的数据分布控制,并以相同的方式受到同一组预测变量的影响。但是像障碍模型和零膨胀模型(例如,零膨胀泊松)这样的模型分别对计数变量是零值还是正值以及正值的条件分布的二元结果进行建模。

(如果您想了解更多障碍和零膨胀模型,请参阅交叉验证网站上的问答链接: https ://stats.stackexchange.com/questions/81457/what-is-the-difference- between-zero-inflated-and-hurdle-modelshttps://stats.stackexchange.com/questions/279273/zero-inflated-distributions-what-are-they-really。)

您还可以手动构建那些单独的二项式(逻辑)和计数模型(如果需要,可以使用单独的预测变量集)并尝试组合结果。但是,一个问题是,您只需要为之前已回复的个人建模金额(因为您正在寻找以回复为条件的预期金额),并且您很难计算/估计以前没有回复的个人的预期金额回应并为任何新客户。

您正在尝试计算一个人做出回应并获得贷款的概率(0 到 1)。如果你使用回归,你可能会得到一个负概率。使用贷款金额(以及任何其他协变量,如年龄、收入等)的分类模型是正确的方法。这个问题和答案可能会有所帮助。