时间序列数据分类

数据挖掘 分类 时间序列 特征选择
2022-02-23 19:10:22

背景: 我正在做一个分类项目。我根据客户过去的购买历史向他们推荐商品。

问: “时间泄漏”会如何影响训练?

示例: 假设我试图预测某个客户今天的购买情况。我只训练以前的历史,不知道今天要买什么。我的特征由一组二进制变量组成,对于历史上的任何一天,这些变量都可以被认为是推荐(1)或不推荐(0)一个项目(本质上充当“哑”分类器本身)。例如,这些特征之一可能是某个项目是否在客户的前 10 名列表中,等等。

在这种情况下,计算所有历史中的前 10 名并基于此列表创建一个应用于历史中每一天的特征是否可以接受?当然,这将使历史上第一天的特征对未来有所了解。

还是有一个滑动窗口,其中只能查看过去的功能创建更合适?

1个回答

我不完全理解你的例子,但是:

如果您想在某一天将您的模型投入运营/生产环境......那么您不应该在培训时允许“展望未来”。