假设您有一些训练数据集要用于训练一些 ML 模型,其中目标包含在 1 到 100 之间。但是,在 4000 个样本中,其中很少(少于 10 个)的值超出之前的范围,远高于 100,比如说 300。忽略这些样本并将它们从数据集中删除是否合理,还是应该保留它们?我看到人们的反应不同,他们中的一些人说他们可能会伤害模型,而另一些人则说不,因为这些样本为模型提供了额外的信息。
从数据集中删除异常值好吗?
数据挖掘
机器学习
2021-10-13 11:06:20
1个回答
这主要取决于您尝试使用模型实现的目标。有时,如果不感兴趣,异常值携带的信息确实可以忽略不计(例如,那些高值是由数据收集/输入错误引起的),并且可能会影响您的模型性能。但在其他一些情况下,异常值具有很多意义,您可能希望您的模型知道它们的存在/可能性。在其他情况下,异常值是您真正关心的(参见异常/新奇检测,例如)。
长话短说,如果这些异常值确实如此(即它们以非常低的频率出现并且很可能是错误/随机/损坏的测量值)并且它们不对应于您的模型应该注意的潜在事件/故障,您可以安全地移除它们。在所有其他情况下,您应该逐个评估这些异常值代表什么。
其它你可能感兴趣的问题