我们应该在取样之前从总体中识别异常值吗?

数据挖掘 机器学习 统计数据 离群值 数据科学模型
2022-03-04 05:10:36

我正在通过这门课程修改本科统计学课程,在那里我正在学习从人群中提取样本的技术。

在确保样本能够很好地代表总体的同时,我还有一个问题。

  • 在从总体中抽取样本之前,我们是否应该关心异常值的识别和纠正?

是我提出这个问题的工作

1个回答

这取决于您要如何处理异常值。异常值可能是由数据分布偶然产生的,也可能是人为错误(测量错误、数据输入错误等)的结果。

  • 如果您认为异常值来自第一类,我认为您不应该丢弃它,以便从数据的真实分布中获取样本。
    此类别中的异常值可能表示分布严重偏斜,或者可能只是由于问题的性质(例如King 效应)而出现。

  • 如果您认为它是一个错误(例如,人类身高 3.75m),您应该丢弃它,因为它会破坏数据的分布。

为了确定异常值属于哪个类别,要么需要领域知识(例如知道人的身高不能超过 3m),要么需要您对数据做出假设