一个人真的可以用更多的数据来对抗异常值吗?

机器算法验证 采样 随机森林 异常值 助推
2022-04-07 02:50:28

考虑一个嘈杂的分类问题和一个我们可能有异常值的训练集。随着我们收集更多数据,我们会从内点和异常点中收集更多样本。那么在一般情况下假设一个人可以通过收集更多数据在技术上对抗异常值是否合理?我以前读过这个说法,但事实似乎是违反直觉的。

3个回答

与大多数关于异常值的问题一样,我认为没有一个简单的答案。这将取决于你的情况。

例如,如果您正在对种族和收入之间的关系进行建模,并且迈克尔乔丹偶然回答了您的调查,那么更多数据会有所帮助,因为它可以澄清情况,但是,因为很少有人能够“像迈克一样“您将需要数百万个案例才能完全消除将他纳入您的样本的影响。(并且 N = 1000 将比 N = 100 更清楚地表明收入不是远程正态分布的)。

另一方面,如果你的变量之一是身高,那么更多的人会解决问题,因为虽然乔丹很高,但他并没有高得离谱,以至于他不应该出现在数据集中。

有时您认为正常的变量不是正常的,至少在您正在处理的人群中不是。我在成年人的体重中发现了这一点:在许多人群中都是正​​确的。一个大样本显示了这一点。小的没有。

它还取决于您用于分类的方法以及异常值是否类似于最接近的内点。例如,如果您使用树将人分为“职业篮球运动员”和“其他人”,那么 MJ 在身高上是一个异常值就没有问题了。他也不是收入的异常值。但是,如果您碰巧遇到一个非常高的人,但他不是篮球运动员,那么这会使树变得怪异,并且更多数据可能无济于事(或者可能-我认为这取决于算法)。

对于聚类分析,离群值(和更多数据)的影响对于单一链接和完全链接可能不同。

等等。

如果您的异常值是由于分布中的自然异常值而发生的,那么是的,您的估计会随着更多数据而变得更加稳定。假设您正在使用逻辑回归,在理论上的情况下,结果取决于带有一些正态分布噪声的观察变量。异常值会出现在噪声中,并且您会意外地在噪声中遇到一个值,该值是正态分布之外的三个标准差。那么这将对模型中估计的截距和系数产生影响,如果您没有太多数据,这将更加强大。随着更多的数据,这些事故的影响将平均化。

但这是一个非常理论化的案例。如果你的异常值来自更奇怪的东西,或者你没有包含在模型中但实际上是结构的东西,或者它们可能是任意大的,那么更多的数据可能无法保存你的模型。

异常值是那些偏离大多数数据模式的样本。通常,异常值的数量远远少于正常样本。因此,对于每个新样本,它更有可能是正常样本而不是异常值。因此我认为,收集更多数据可以帮助对抗异常值。