我正在通过这门课程修改本科统计学课程,在那里我正在学习从人群中提取样本的技术。
在确保样本能够很好地代表总体的同时,我还有一个问题。
这是我提出这个问题的工作
这取决于您要如何处理异常值。异常值可能是由数据分布偶然产生的,也可能是人为错误(测量错误、数据输入错误等)的结果。
如果您认为异常值来自第一类,我认为您不应该丢弃它,以便从数据的真实分布中获取样本。 此类别中的异常值可能表示分布严重偏斜,或者可能只是由于问题的性质(例如King 效应)而出现。
如果您认为它是一个错误(例如,人类身高 3.75m),您应该丢弃它,因为它会破坏数据的分布。
为了确定异常值属于哪个类别,要么需要领域知识(例如知道人的身高不能超过 3m),要么需要您对数据做出假设。