我们如何在不违反特征相关性的情况下使用均值插补?

数据挖掘 缺失数据 数据插补
2022-03-14 05:03:54

平均插补通常是不好的做法,因为它没有考虑特征相关性。想象一下,我们有一张显示年龄和体能得分的表格,并想象一个 80 岁的人缺少体能得分。如果我们从 15 岁到 80 岁的年龄范围内取平均健康分数,那么 80 岁的人看起来会比他实际应该有更高的健康分数。因此,我想知道我们是否有任何方法可以在不违反特征相关性的情况下使用均值插补。

对我来说,一个直接的解决方案是用一组相似的主题来代替数据中整个人口的平均值例如,在上面的例子中,我们可以用其他同龄人的平均分数来填补一个人的缺失分数,或者为了更大的灵活性,在同一个年龄段。如果我们有超过 2 个特征并且仍然希望考虑所有特征之间的相关性,这种方法仍然有效。我们只需要根据所有特征定义主题之间的相似度度量,例如余弦相似度。当然,相似度计算是昂贵的,这是这种方法的一个限制。所以我想知道是否有更好的选择。

1个回答

如果要保持特征相关性,请使用通过使用特征相关性来解决缺失值的 imputer,例如 KNN、回归等。如果没有数据缺失的根本原因,这些方法效果很好 - Missing at随机的。