插补是否会引入不可接受的偏差?

机器算法验证 偏见 统计能力 数据插补
2022-03-28 00:33:24

我最近开始了解插补技术,简而言之,它可以“猜测”实际值,以替换数据集中的缺失值。我对此的最大问题是,我们通过假设它们与我们已经拥有的相似来猜测数据,这将加强数据中可能存在的任何模式,有可能将一个不重要的模式变成一个重要的模式。这种做法如何被接受?我错过了什么?

我对该主题相对较新,但我已经做了一些研究,并且我知道插补技术的范围从用固定的“现实”值替换所有 NA 到用观察值的平均值替换它,再到猜测缺失值使用最近邻法或最大似然法。虽然我了解这些方法的工作原理,但我无法摆脱他们正在制作数据的想法。插补技术在复杂性和制作的数据看起来与真实的接近程度不同,但它们仍在制作数据。对我来说,这种做法违背了统计作为一种工具的全部观点,它是一种基于真实的、未经篡改的样本,而不仅仅是真实的样本,对总体进行现实推断的工具套用伊恩·马尔科姆的话说,我的问题不是我们能否做到,而是我们是否应该这样做。

Tukey 反对统计学家狂妄自大的第一条原则是:

一些数据和对答案的渴望的结合并不能确保可以从给定的数据体中提取合理的答案。

(摘自“日落齐射”,美国统计学家 40(1),72-76,1986 年 2 月)

插补不会与它发生冲突吗?

我意识到这可能只是我的无知在说,这可能使任何统计学家读到这种愤怒。如果是这样,请赐教。我也很感激有关相关文献的指点。到目前为止,我只阅读了 Robinson 的“R 中的森林分析”中的相关章节。干杯!

1个回答

这里没有明确的答案。有趣的是,人们可以使用验证程序来验证插补的效果:让数据来决定!

如果缺少一些值,是否应该丢弃一项功能?还是当时的观察?如果这些观察在其他特征中有有价值的信息,而您的算法无法处理缺失值怎么办?等等。

插补,就像删除观察或特征一样,只是处理缺失值的一种方式。最好的决定应该得到良好的机器程序(如(交叉)验证)的支持。