假设我想预测一家公司是否会在某个时间点拖欠债务(所以是二元分类),而我使用的时间序列变量之一是该公司思考时间的“收入”。我可以使用分位数切割(如 => pd.qcut(df['revenue'],bins=10)) 将这个变量“收入”分箱而不造成数据泄漏吗?
我的印象是我不能真正做到这一点,因为分位数削减是通过了解整个期间变量“收入”的整个分布来进行的。也就是说,在我的训练数据中的任何时间点归属于“收入”的 bin 都将携带有关未来的信息。
我是否正确地假设这会为此时间序列预测问题造成数据泄漏?如果是这样,我可以安全地使用 pd.cut 代替没有分位数吗?
谢谢