机器算法验证 - 用估计参数模拟 KS 检验 - 吾爱随笔录

我们知道原始的 KS 检验有一个限制，需要完全指定零假设检验基础分布，而不是估计。但在实践中，我们通常需要测试拟合分布的拟合优度。

建议通过Wikipedia 对 KS-test进行蒙特卡罗模拟。但是很少有关于这种模拟的有限文献综述。有几个想法出现在我的脑海中。

方法一

似乎原始 KS 检验对于测试估计分布不再有效的原因是，我们需要更小的临界阈值 KS 距离（d 值）来拒绝零假设基础分布，因为它是围绕数据拟合的。

Lilliefors-test解决了这样的问题。虽然它只适用于正态分布，但我们可以扩展它的方法。

找到数据（n 个数据点）与估计的基础分布之间的 KS 距离 ( $D_{0}$
通过估计的基础分布生成 n 个数据点 M 次（大约数百万），找到它们的 KS 距离 set = { , , , ..., } 每次。 $D_{m}$ $D_{1}$ $D_{2}$ $D_{3}$ $D_{M}$
比较值和设置为 p 值的百分位数。 $D_{0}$ $D_{m}$

$P(>D_{0}|Null Hypothesis Distribution)$

一些帖子说原始的KS-test不能应用于估计分布，因为它没有考虑估计（或拟合）的标准误差。

所以他们建议从原始数据中引导作为模拟，但他们没有描述细节。我认为方法可以如下。

找到数据（n 个数据点）与估计的基础分布 A 之间的 KS 距离 ( $D_{0}$
从原始数据引导并再次拟合分布，得到一个新的拟合分布 B. 找到这个新的原始样本和新分布 B 之间 $D_{1}$
重复第 2 步 M 次，每次设置 KS 距离 = { , , , ..., }。 $D_{m}$ $D_{1}$ $D_{2}$ $D_{3}$ $D_{M}$
比较值和集合的百分位数，看它是否在 95% 的经验区间之外。 $D_{0}$ $D_{m}$

似乎这考虑到了估计的估计误差（或置信区间），这会影响原始 KS 检验。但似乎这种方法不遵循 p 值定义，或者假设定义，假设 Null 假设并找到样本统计概率。

我的同伴也提出了一个想法，就像方法2一样。

似乎它是方法 2 的参数引导程序。但是再次生成这样的样本和拟合数据似乎很奇怪。而且它似乎仍然没有遵循假设定义。

您对这三种方法有任何想法吗？或任何修改？

或者您是否找到任何正式的文献说明估计分布的 KS 测试的模拟细节？

我只找到有关此的详细信息的Durbin (1973)。但是很抱歉，我找不到关于这本书的全文。有没有人有关于模拟KS-test的类似细节的任何其他电子版本？

Anderson-Darling 检验是否也受此估计参数问题的影响？

任何想法或讨论都将受到高度赞赏。

谢谢你。