什么是标准统计测试来查看数据是否遵循指数或正态分布?

机器算法验证 分布 假设检验 正态分布
2022-01-20 16:57:40

什么是标准统计测试来查看数据是否遵循指数或正态分布?

4个回答

您似乎正在尝试决定是使用正态分布还是指数分布对数据进行建模。这对我来说似乎有些奇怪,因为这些分布彼此非常不同。

正态分布是对称的,而指数分布则严重向右倾斜,没有负值。通常,来自指数分布的样本将包含许多相对接近向右偏离的观测值这种差异通常很容易以图形方式看到。00

这是一个示例,其中我方差的指数分布观察值n=1002424

正态与指数:模拟数据

使用直方图、箱线图和散点图可以看出正态分布的对称性和指数的偏度,如上图所示。

另一个非常有用的工具是QQ 图在下面的示例中,如果样本来自正态分布,则点应大致沿线。如您所见,这是正常数据的情况,但不是指数数据。

模拟数据的 QQ 图

如果由于某种原因图形检查对您来说还不够,您仍然可以使用测试来确定您的分布是正态分布还是指数分布。由于正态分布是一个比例和位置系列,因此您需要使用在比例和位置变化下保持不变的测试(即,如果您将测量值从英寸更改为厘米或添加到您的所有观察结果)。+1

当原假设为正态分布而备择假设为指数分布时,最有力的位置和尺度不变检验由统计量 其中是样本均值,是样本中的最小观测值,是样本标准差。太大,则拒绝正态性以支持指数性。

TE,N=x¯x(1)s
x¯x(1)sTE,N

该测试实际上是Grubbs 的异常值测试的单边版本您会发现大多数统计软件都实现了这一点(但请确保您使用正确的版本 - 有几种替代测试统计用于异常值测试!)。

是最强大的测试的参考TE,N: HC Thode的“正态性测试”第 4.2.4 节。

对于指数分布,您可以使用称为 Moran 检验或 Bartlett 检验的检验。检验统计量涉及样本均值 以及记录的 在原假设下,我们有大约 和双面测试有效。该测试是针对伽马替代品设计的。BnY¯logY¯Yi

Bn=bn×{logY¯logY¯}bn=2n×{1+(n+1)/(6n)}1
Bnχ2(n1)

请参阅工程设计中的 KC Kapur 和 LR Lamberson可靠性威利 1977.

正常情况下,Anderson-Darling 和 Shapiro-Wilk 被认为是最好的。对于指数 Lillerfors 测试是专门为它设计的。

您是否考虑过使用图形方法来查看数据的行为方式?

概率图技术通常涉及对数据进行排序、应用逆 CDF,然后在笛卡尔平面上绘制结果。这使您可以查看是否有多个值偏离假设分布,并可能解释偏离的原因。