“异常值”是一个方便的术语,用于将不符合您期望的流程外观的数据收集在一起,以便从分析中删除。
我建议永远不要(稍后警告)删除异常值。我的背景是统计过程控制,因此经常处理大量自动生成的时间序列数据,这些数据根据数据和分布使用运行图/移动箱线图等进行处理。
异常值的问题是它们将始终提供有关您的“过程”的信息。通常你认为的一个过程实际上是多个过程,它比你想象的要复杂得多。
使用您问题中的示例,我建议可能有许多“过程”。会有变化,因为...
- 由一个电导装置采集的样品
- 在电导装置之间采集的样本
- 当受试者取下探针时
- 当主体移动时
- 一个受试者全身皮肤或不同采样日(头发、水分、油脂等)之间的差异
- 科目之间的差异
- 对测量人员的培训和员工之间的差异
所有这些过程都会在数据中产生额外的变化,并且可能会移动平均值并改变分布的形状。其中许多您将无法分成不同的流程。
因此,将数据点作为“异常值”删除的想法......我只会删除数据点,当我可以肯定地将它们归因于我不想包含在我的分析中的特定“过程”时。然后,您需要确保将不包含的原因记录为分析的一部分,因此很明显。不要假设归因,这是在数据收集过程中通过观察进行额外记录的关键。
我会质疑您的陈述“因为它们中的大多数都是错误”,因为它们不是错误,而只是您在测量中确定为不同的不同过程的一部分。
在您的示例中,我认为排除您可以归因于您不想分析的单独过程的数据点是合理的。