假设我有一个场景,其中我的观察单位是在提供某种服务后发出的账单,我的目标是预测是否会支付该账单。我在系统中有用户,因此我包括用户变量,例如用户拥有的未付账单数量、用户在服务系统中的时间(资历)等。我在第 1 个月进行培训并在第 2 个月进行测试(在那几个月创建的账单, 分别)。
在测试月份,我将增加用户变量的计数,例如,如果在培训期间 user_1 在我的系统中有 100 天的时间,当然如果在测试月份有与他相关的账单 - 他的天数会更高.
这些变量的这种累积性质是否被认为是训练集和测试集之间的数据泄漏(因为在某种意义上,在测试中使用了训练中使用的部分信息)?