如何预测事件发生的概率?

数据挖掘 预测建模 可能性
2022-02-26 04:54:23

我有一个数据集,其中一组人为慈善事业捐款以及捐款日期。我必须找出每个捐赠者在未来三个月内捐赠的概率。

2014 年 8 月至 2016 年 2 月的数据可用。我必须预测每个人在 2016 年 3 月至 6 月期间捐款的概率。

任何帮助,将不胜感激?

下面是数据截图

id  date    amount
1   13-08-14    2485
1   21-11-14    2105
1   17-09-15    1359
2   13-08-14    2542
2   20-04-15    1276
2   12-10-15    2694
3   20-11-14    3556
4   28-07-15    3383
5   13-08-14    1698
5   11-12-14    1725
5   09-06-15    1376
5   17-09-15    3230

问候

4个回答

请仔细检查您是否拥有唯一的数据,因为您拥有的只是一个 predictor date

如果这确实是您唯一的数据源,那么您只有一个预测变量,并且您的自变量是连续的。现在,您应该绘制datevsamount并拟合单个线性回归。装修好看吗?只有你能说出来,因为我们没有完整的数据集。

如果不合适,请查看情节并问自己这看起来像曲线吗?如果是这样,您可能想要拟合样条曲线或类似的东西。

您还应该检查自相关。这是有道理的,因为您的数据看起来像一个时间序列(您需要自己检查)。如果是这种情况,您可能需要考虑 MA 和 ARCH 模型。

我们无法为您提供准确的建议,因为我们不知道您的数据。

您可以尝试使用马尔科夫模型!(可以在此处找到其插图)

此外,您可以通过绘制数据集来检测数据集中的模式,然后根据相关程度和绘图的性质找出要使用的算法。

另外,你有多少用户?您可以将每个用户的数据组合在一起,并为所请求的用户运行算法。

如果您想知道用户是否会捐款,回归是要走的路,要找到概率,请尝试马尔科夫!

我认为您可以使用@Student_T 所说的时间序列建模算法。您也可以使用窗口时间来查找新捐赠和先前捐赠之间的关系,您可以使用金额,可能高支付和低支付的人有不同的行为。首先,您应该以填补空白的方式更改数据。我的意思是你应该添加一个人没有任何付款的月份的数据。之后你应该做一个这样的表格:person_id/月(或天或周或3个月)/付款计数/上个月付款计数/上个月支付的金额总和/上个月支付?/

那么你应该发现你的文件是否有用和独立。并尝试添加其他文件。然后建立你的模型。

祝你好运。

您可以使用二元逻辑回归进行此分析。

在使用 Binary Logit 之前,您必须花一些时间来准备用于此分析的数据。

您可以从此数据集中创建多种 RFM 类型的要素。示例:捐赠次数、捐赠间隔时间、最近一次捐赠的时间、第一次捐赠的时间、平均捐赠金额、首次捐赠金额、最近一次捐赠金额等(如果需要,我可以提供更多示例.)

由于您的任务是预测四个月时间范围内(2016 年 3 月至 6 月)内的捐赠概率,因此您可以为 2015 年 10 月底的每个捐赠者创建这些特征(领先指标)所有领先指标都将基于在该截止点之前的时间范围内。您的观察窗口是从 2015 年 11 月到 2016 年 2 月。这是您的事件标志(因变量)的来源:如果捐赠者(再次)在观察窗口期间捐赠,则为 1,否则为 0。

为了使该模型具有通用性,我建议您提取数据的几个这样的横截面(除了上面解释的 2015 年 10 月切片之外,)