我有一个包含一些缺失数据的时变数据集。我有传感器以均匀间隔连续监控某些属性,我想使用训练集和测试集的基本插值来估算缺失值。这是一个时间序列二元分类问题(例如,基于存在的整个时间序列,分类为 1 或 0)。我担心从未来获取数据来插入缺失值是一种数据泄漏形式。
我相信它不是的原因主要是基于我没有进行预测的事实。我不是试图预测这些传感器的未来值,只是用最可能的值来估算缺失的动态变量(事实上,根据我的领域知识和一些实验,简单的插值在预测真实值方面非常准确)。如果我试图预测未来的传感器值(例如,预测),这肯定是数据泄漏,对吗?