理解为什么值太小pp

机器算法验证 分类数据 卡方检验 p 值 拟合优度
2022-04-08 13:51:20

我有一个包含粒子计数的数据集,我想测试它们是否遵循分布。对于某个物种,我进行了 -test,一切似乎都是合理的,找到,我将其解释为我的零假设(在这种情况下,数据遵循 Skellam分发)不被拒绝。在下图中,直方图是分箱数据,曲线是预期分布。χ2pp=0.75

p-ap

但是,当我对另一种类型的粒子执行相同操作时,我发现,但该图向我表明数据确实遵循 Skellam 分布:pp=2×1013

pi+-pi-

我在某些地方读到大样本可能会导致这种情况,但我的样本大小是,并且由于它不影响第一类粒子,我假设这不是问题。我在这里有什么误解?这真的意味着我应该拒绝零假设吗?3×104

一个后续问题:在这种情况下,我应该使用哪个测试来检查拟合优度?为了完整起见,统计数据分别为χ2=19.8χ2=220

1个回答

一些一般的想法:

  1. 真实世界的数据很少会完全遵循特定的分布。这并不能阻止我们使用特定的分布作为模型来回答问题。模型不必完美,但足以达到目的。
  2. 对于如此庞大的样本量,即使与 Skellam 分布的微小偏差也会导致非常小的p值。这只是测试一致性的结果。检测越来越小的偏差的能力随着样本量的增加而增加(另见此处)。在第二种情况下,p值为意味着有很多证据反对零假设,即数据来自斯凯拉姆分布。具体来说,有位信息与测试假设相反(这称为值)。2×1013log2(2×1013)42.19S
  3. 未能拒绝原假设并不意味着它是正确的。这意味着没有足够的证据来拒绝您的数据以足够高的置信度与 Skellam 分布兼容的概念。除了 Skellam 分布之外,可能有无数个分布与您的数据兼容。
  4. 直方图对于检查数据和指定分布之间的一致性是次优的。我建议改用 QQ-plots(更多信息在这里)。另一个非常有用的可视化工具是悬挂根图。可以在这里找到一篇关于这方面的好论文。我在这个答案中展示了如何应用悬挂根图来检查对泊松分布的拟合

根据以上几点,您可能会觉得问自己一些有用的问题:

  1. 你的具体目标是什么?为什么要显示数据遵循 Skellam 分布?
  2. 与 Skellam 分布的偏差必须有多大才能使您认为 Skellam 分布的模型不适合该任务?

这两个问题都需要我没有的主题知识。