在对时变传感器数据进行插补期间是否存在潜在的数据泄漏?

数据挖掘 分类 时间序列 数据插补 数据泄露
2022-03-04 02:57:50

我有一个包含一些缺失数据的时变数据集。我有传感器以均匀间隔连续监控某些属性,我想使用训练集和测试集的基本插值来估算缺失值。这是一个时间序列二元分类问题(例如,基于存在的整个时间序列,分类为 1 或 0)。我担心从未来获取数据来插入缺失值是一种数据泄漏形式。

我相信它不是的原因主要是基于我没有进行预测的事实。我不是试图预测这些传感器的未来值,只是用最可能的值来估算缺失的动态变量(事实上,根据我的领域知识和一些实验,简单的插值在预测真实值方面非常准确)。如果我试图预测未来的传感器值(例如,预测),这肯定是数据泄漏,对吗?

1个回答

如果您使用来自未来的信息来估算丢失的数据,那么当模型处于生产状态并试图预测未来值时,您将没有这些额外的信息。为防止数据泄漏,请确保仅使用在您要预测的日期/时间可用的值。如果您要根据历史数据估算丢失的数据,您将不会泄漏数据,因为您在预测时拥有这些数据(正如术语“历史”所暗示的那样)。