如何预测特定时间窗口内的结果?

数据挖掘 机器学习 深度学习 分类 数据挖掘 回归
2022-03-11 15:35:18

我有一个包含大约 10K 记录的数据集。

我的目标是预测客户是否会流失。每个类代表大约 55:45 的比例和 20 个特征的二元分类问题。

我明白当它只是关于预测时,我可以应用一些二进制分类算法并找出客户是否流失

但是,我如何结合确定客户是否会在 30 天内流失的目标呢?

另一个例子是查找患者是否会在出院后 30 天内死亡。我有他的出院日期以及血压、胆固醇等其他特征。

与其只是预测他将来是否会死,我想将其限制在出院之日起30天。

希望我提供了详细信息以帮助您更好地理解问题。

2个回答

Beeing X in the future 和beeing X in the specific time in the future 只是第一个的子集。

所以真正需要做的只是确定概率(或给我们这些概率的参数)

P(X|t>30)

您可以在哪里建模 t,也可以作为您的特征。因此,只需在此数据上拟合一个模型,您就可以对以下数据进行多重分类:

  1. 30天内死亡
  2. 30天后死亡
  3. 30天后还活着

这取决于你想在技术上有多深。您可以对生存方法/ cox 模型进行轻微修改,将在某些事件发生之前经过的时间与可能与该时间量相关的一个或多个协变量相关联。

此外,如果您对特征进行分组,您可以使问题看起来像一个经典的二元分类问题。但是你应该做一些数据工程才能得到这么好的标签。

可能最简单的方法是修改您的数据,使其看起来像一个分类问题,而目标是该人是否在接下来的几个月内离开。