Kolmogorov-Smirnov 检验对离散分布有效吗?

机器算法验证 假设检验 离散数据 kolmogorov-smirnov 测试
2022-02-12 15:44:16

我正在比较一个样本并检查它是否分布为一些离散的分布。但是,我不能完全确定 Kolmogorov-Smirnov 是否适用。维基百科似乎暗示它没有。如果没有,我该如何测试样本的分布?

3个回答

它不适用于离散分布。例如,参见http://www.itl.nist.gov/div898/handbook/eda/section3/eda35g.htm 。

有什么理由不能使用卡方拟合优度检验吗?请参阅http://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htm了解更多信息。

就像统计数据中经常出现的情况一样,这取决于您的意思

  1. 如果您的意思是“我根据从离散分布中抽取的样本计算我的检验统计量,然后查找标准表”,那么您将获得比您选择的错误率更低的真实 I 类错误率(可能低很多)。

    多少取决于分布的“离散程度”。如果任何一个结果的概率都相当低(因此数据中的绑定值的比例预计会很低),那么这并不重要——很多人不会有运行 5 的问题% 测试在 4.5% 说。因此,例如,如果您在 [1,1000] 上测试离散制服,您可能不必担心。

    但是,如果一个值被捆绑的可能性很高,那么可以标记对 I 类错误率的影响。如果您在想要 0.05 时得到 0.005 的显着性水平,这可能是个问题,因为它会相应地影响功效。

  2. 相反,如果您的意思是“我计算从离散分布中抽取的样本的检验统计量,然后使用合适的临界值/针对我的情况计算合适的 p 值”(例如,通过置换检验),那么检验在您将获得正确的 I 类错误率的意义上肯定是有效的——当然,取决于测试统计数据本身的离散性。(尽管对于您的特定目的可能会有更好的测试,就像通常在连续情况下一样。)

    请注意,检验统计量本身的分布不再是无分布的,但置换检验避免了该问题。

因此,有时即使使用离散分布也可以使用标准表,即使它不好,问题也不是测试统计量而是您使用的临界值/ p 值。

我相信 KS 测试使用的事实是,如果是具有 CDF的随机变量,则是均匀随机变量。如果不连续,则情况并非如此。例如,如果是伯努利,则,不是统一的。XFF(X)XXF(X)=X