背景: 我正在做一个分类项目。我根据客户过去的购买历史向他们推荐商品。
问: “时间泄漏”会如何影响训练?
示例: 假设我试图预测某个客户今天的购买情况。我只训练以前的历史,不知道今天要买什么。我的特征由一组二进制变量组成,对于历史上的任何一天,这些变量都可以被认为是推荐(1)或不推荐(0)一个项目(本质上充当“哑”分类器本身)。例如,这些特征之一可能是某个项目是否在客户的前 10 名列表中,等等。
在这种情况下,计算所有历史中的前 10 名并基于此列表创建一个应用于历史中每一天的特征是否可以接受?当然,这将使历史上第一天的特征对未来有所了解。
还是有一个滑动窗口,其中只能查看过去的功能创建更合适?