假设我们有一些用户在网站上活动的历史数据,并且我们想要建立一个流失预测模型(假设我们想要预测 2 个月窗口内的流失)。据我了解,通常的方法是在某个时间获取一部分历史数据 并查看在时间间隔内哪些用户流失 ,所以我们有时会取一些特征 并训练我们的模型。
但是,这样我们只使用了一小部分数据,只为我们的模型提供了当时活跃的用户 . 但是如果我们想使用所有的历史数据呢?想到的一种方法是有时对我们的数据进行大量切片并且只需将它们合并到一个数据集中,但是即使我们将这些切片彼此相距很远,不同的切片也可能有很多相同的用户。因此,我们的模型可能会学习到,如果一组特定的特征在我们的数据集中多次出现,那么具有这些特征的用户流失的可能性较小(例如,如果我们在 和 那么,如果用户同时出现在这两个切片中,他至少不能在某个时间流失 )。所以这似乎不是正确的方法......
如何在不破坏模型的情况下从长时间的历史数据中提取尽可能多的信息?