检测数据集中缺失的记录

数据挖掘 机器学习 时间序列 缺失数据
2022-02-24 01:42:18

我有一个数据集,其中包含每天来自各种小部件的多个度量值。虽然小部件随着时间的推移保持相对稳定,但有时有合理的理由让一个小部件消失,而另一个小部件作为一个整体出现在数据中。有时,小部件会消失,因此数据集不完整,从而使当天的整个数据集无效。

我正在寻找的是一种将当前小部件集与另一组小部件进行比较以检测是否缺少任何小部件的方法。我不是试图创建这些值,只是确定它们丢失了。我可以做时间序列,但这感觉对这么多小部件来说有点过分了,而且有多个属性可能会丢失数据。我希望有更多基于设置的东西,这可能会解释小部件的定期变化,但会检测到异常的丢失。我确信我只需要调整我思考问题的方式。

任何想法将不胜感激?

1个回答

一种选择是散列,为每个小部件分配一个数值。最好的散列选项是如果每个小部件都有一个唯一的 id,比如序列号。如果小部件不具有固有的唯一性,则可以通过将散列函数应用于小部件的特征来创建散列值。

在为每个小部件创建哈希值后,可以使用集合比较来查看两组小部件之间是否有任何哈希值不同。