如何计算任意分布的 Lilliefors 检验?

机器算法验证 蒙特卡洛 kolmogorov-smirnov 测试 利利福斯测试
2022-03-27 15:14:29

我的问题实际上是 Glen_b 对“使用估计参数模拟 KS-test ”问题的回答的后续。

我最感兴趣的是如何计算Lilliefors 检验(或者,更准确地说,当目标分布的参数实际上是从数据中估计出来时,Kolmogorov-Smirnov 检验的校正版本 - 无论是 Lilliefors 检验还是其他东西) 用于正态以外的分布。似乎大多数时候讨论 Lilliefors 检验,它用于检查样本是否来自正态分布,但这并不是该检验的真正限制。

因此,我的问题实际上是双重的:

  1. Lilliefors 的测试可以使用哪些发行版有任何限制吗?即它可以扩展到使用 Gamma、卡方,甚至可能是经验分布函数吗?
  2. 我们如何扩展它以使用这些发行版?

我对如何完成 2 有一个粗略的想法,但我仍然无法完全理解某些部分。例如,在对上述问题的回答中,Glen_b 对如何通过模拟应用测试给出了以下描述:

重复多次:

  1. 从假设的分布中模拟所需样本量的样本。

  2. 估计分布的参数。

  3. 将估计的参数视为总体值,通过概率积分变换转换为均匀性。(您可以在此步骤计算 KS 统计量而不进行转换;但是,它使计算更简单。)

  4. 计算 KS 检验统计量。

收集模拟统计量,并计算出模拟统计量至少为极端的次数比例(更符合 H1) 作为观测样本值。

我的一些疑问:

  • 在步骤 1 中,我们在采样时应该使用哪些参数来假设分布?是在拟合我们拥有的数据之前还是之后?

  • “计算出模拟统计量至少与观察到的样本值一样极端的比例”究竟意味着什么?

  • 使用这种方法,最终结果将是一个新的 p 值,我们可以将其与我们选择的显着性水平进行比较?或者必须以某种方式考虑最后一部分的显着性水平(计算比例)?

1个回答

[目前这仅涉及有关限制的初始问题。我可能会回来解决其他一些问题。]

Kolmogorov-Smirnov 检验(即具有完全指定的连续分布的检验)本身是无分布的——检验统计量的分布不取决于指定的分布是什么。

在 Lilliefors 测试的情况下,我们知道分布形式,但我们不知道一个或多个参数,因此没有完全指定分布(我们估计那些未知参数),因此测试不是无分布的 -我们需要分别对待每个分布。

Lilliefors 检验的标准方法的核心问题是,您希望检验统计量的分布在不同的参数值集之间保持相同。

给定一些指定的分布,那么我们想要的是无论真实参数值是什么,测试的工作原理都是一样的。

考虑一下 Lilliefors 研究的案例——一个正常的和一个指数的。让我们先看指数。当我们估计尺度参数 (μ说),然后将观察值除以该比例(Vi=Xi/μ^) 为了获得一组标准化的值,这些标准化值的分布不依赖于真实的比例参数,μ(它在分子和分母中,所以抵消了)。

同样,如果我们以正态估计这两个参数——标准化值的分布Zi=Xiμ^σ^不要依赖μσ.

(此时您可能会发现阅读有关关键数量辅助统计数据很有用

因此,在这种情况下,测试统计量的分布不会随着我们更改参数值而改变;它仅取决于特定分布、估计哪些参数(例如,如果我们只估计正态中的一个参数,它会再次发生变化)以及样本量。

并非总是如此。例如,如果我们正在查看 beta 分布,那么当您更改参数值时,简单地放入估计的参数值并使用概率积分变换不会使测试统计量的分布保持不变。我看下面的伽玛示例。

在某些情况下,它可能不会产生很大的差异(您可能仍然有一个近似测试),并且在某些情况下,它在小样本量下可能效果不佳,但在大样本量下可能是合理的。这样的事情需要调查——但除非你有上面讨论的属性,否则你不能仅仅假设事情会正常工作而没有理由相信它们会起作用。

这就是我在您所指的原始线程中保持谨慎的原因。

手头问题的示例:

你在你的问题中提到了伽玛,所以这是一个关于这个问题的小例子,看看形状参数的一个小值和一个大值。请注意,这里的问题只是形状参数,因为比例参数估计只能用于以与指数相同的方式缩放数据:

两个伽马随机变量的“Lilliefors”样本分位数的 QQ 图

如您所见,两个分布的右尾是不同的。然而,对于参数的非小值,立方根变换使伽马具有几乎相同的形状(但位置和尺度不同,作为参数的函数)。这表明您可以安全地进行“大形状参数”近似测试 - 它表明分布应该几乎相同α=10作为α=100, 例如。

[此外,看起来 KS 统计量在形状参数的小值处的分位数在较大值的分位数中几乎是线性的,因此可能有一些近似值可以用较小的估计形状参数来进行测试大小合适。]