我听说平均值,中位数不是估算缺失值的最佳方法,为什么会这样?
在我的场景中,我有这样的数据
Brand|Value
A|2,
A|NaN,
A|4,
B|8,
B|NaN,
B|10,
C|9,
C|11
如果使用平均插补,数据将是
Brand|Value
A|2,
A|7.3,
A|4,
B|8,
B|7.3,
B|10,
C|9,
C|11
这对于品牌 B 为 7.3 确实有意义,但如果品牌 A 为 7.3 则没有意义,因为品牌 A 的价值倾向于在 2 和 8 左右有没有其他方法来填补基于品牌的缺失值?
这是一个只有 2 个特征的数据示例,其中 1 个特征可能具有缺失值的模式,如果有 20 个特征怎么办,并且会有多个特征可能具有更好地定义缺失值的模式。
如何在 Python 中应用它?