数据挖掘 - 在对时变传感器数据进行插补期间是否存在潜在的数据泄漏？ - 吾爱随笔录

我有一个包含一些缺失数据的时变数据集。我有传感器以均匀间隔连续监控某些属性，我想使用训练集和测试集的基本插值来估算缺失值。这是一个时间序列二元分类问题（例如，基于存在的整个时间序列，分类为 1 或 0）。我担心从未来获取数据来插入缺失值是一种数据泄漏形式。

我相信它不是的原因主要是基于我没有进行预测的事实。我不是试图预测这些传感器的未来值，只是用最可能的值来估算缺失的动态变量（事实上，根据我的领域知识和一些实验，简单的插值在预测真实值方面非常准确）。如果我试图预测未来的传感器值（例如，预测），这肯定是数据泄漏，对吗？