数据挖掘 - 时间序列数据分类 - 吾爱随笔录

背景： 我正在做一个分类项目。我根据客户过去的购买历史向他们推荐商品。

问： “时间泄漏”会如何影响训练？

示例： 假设我试图预测某个客户今天的购买情况。我只训练以前的历史，不知道今天要买什么。我的特征由一组二进制变量组成，对于历史上的任何一天，这些变量都可以被认为是推荐（1）或不推荐（0）一个项目（本质上充当“哑”分类器本身）。例如，这些特征之一可能是某个项目是否在客户的前 10 名列表中，等等。

在这种情况下，计算所有历史中的前 10 名并基于此列表创建一个应用于历史中每一天的特征是否可以接受？当然，这将使历史上第一天的特征对未来有所了解。

还是有一个滑动窗口，其中只能查看过去的功能创建更合适？