连续变量离散值的正态性检验

机器算法验证 正态假设 连续数据 迷你表 安德森宠儿测试
2022-04-04 18:23:34

我有一个数据集,其中包含来自工厂生产线的数百个 pH 测量值。该数据集将用于使用 Minitab推断过程能力。

在物理基础上,pH 是一个连续的尺度(溶液中游离氢离子浓度的负对数)。然而,由于测量仪器的分辨率(读数为 0.01)和相对较窄的值范围(最小值:3.34,最大值:3.74),测量可以获取的离散值数量有限。

查看数据,它确实似乎是正常的,但是 Anderson-Darling 检验给出的 p 值 <0.05,表明数据不正常:

pH值直方图

pH值的百分位图

如果我使用“与过程变化相比较小”的正态分布噪声( = 0, = 0.005)对数据进行抖动,则分布不会以任何有意义的方式发生变化。相关的人口参数和/或视觉)。但是,AD 检验给出了更高的 p 值,表明数据的正态性:μσ

抖动的 pH 值直方图

抖动 pH 值的百分位图

来自 6 Sigma 绿带背景,正常为王,骚扰数据是严格禁止的,这感觉就像一个难题。我想使用该数据集来估计过程能力,但是 Minitab 警告我非正态性(我以前的 6σ 教练也是如此)。

因此,我的问题有两个:
1)我可以使用原始(非抖动)数据来推断过程能力吗?
2) 是否需要抖动和/或在能力分析之前预处理数据的有效方法?

1个回答

当您有许多观察值(例如数百个)时,拟合优度测试将发现您不太可能感兴趣的细微偏差。

您是对的:由于测量的离散性,您的数据不可能是正态的,并且您的测试正在确认您的数据不是来自正态分布。

但你已经知道了。

对 Cross Validated 的普遍看法是,这种类型的测试没有那么有用。要么您缺乏足够的样本量来检测有趣的差异,要么您的测试过于强大并且会检测到不有趣的差异。

您的图,尤其是分位数-分位数图,向我证明了您的数据对于几乎任何目的都足够正常。

可能还有其他原因。我要说你的值是有界的,但我知道,pH 值不必像他们在中学时告诉我的那样落在 0 到 14 之间。