数据挖掘 - 我们应该在取样之前从总体中识别异常值吗？ - 吾爱随笔录

数据挖掘机器学习统计数据离群值数据科学模型

2022-03-04 05:10:36

我正在通过这门课程修改本科统计学课程，在那里我正在学习从人群中提取样本的技术。

在确保样本能够很好地代表总体的同时，我还有一个问题。

这是我提出这个问题的工作

1个回答

这取决于您要如何处理异常值。异常值可能是由数据分布偶然产生的，也可能是人为错误（测量错误、数据输入错误等）的结果。

如果您认为异常值来自第一类，我认为您不应该丢弃它，以便从数据的真实分布中获取样本。
此类别中的异常值可能表示分布严重偏斜，或者可能只是由于问题的性质（例如King 效应）而出现。
如果您认为它是一个错误（例如，人类身高 3.75m），您应该丢弃它，因为它会破坏数据的分布。

为了确定异常值属于哪个类别，要么需要领域知识（例如知道人的身高不能超过 3m），要么需要您对数据做出假设。

其它你可能感兴趣的问题