从广义上讲(不仅在拟合优度测试中,而且在许多其他情况下),您根本无法得出空值是真的结论,因为在任何给定的样本量下,存在与空值实际上无法区分的替代方案。
这是两个分布,一个标准正态分布(绿色实线)和一个外观相似的分布(90% 标准正态分布和 10% 标准化 beta(2,2),用红色虚线标记):
红色的不正常。在说时,我们几乎没有机会发现差异,所以我们不能断言数据来自正态分布——如果它来自非正态分布,比如红色分布呢?n=100
具有相同但更大参数的标准化 beta 的较小部分将更难被视为与正常不同。
但鉴于真实数据几乎从不来自某种简单的分布,如果我们有一个完美的预言机(或实际上是无限的样本量),我们基本上总是会拒绝数据来自某种简单分布形式的假设。
正如George Box 所说的那样,“所有模型都是错误的,但有些模型是有用的。 ”
例如,考虑测试正态性。可能数据实际上来自接近正常的东西,但它们会完全正常吗?他们可能永远不会。
相反,您可以通过这种测试形式获得的最好结果就是您所描述的情况。(例如,请参阅帖子Is normality testing基本上没用?,但这里还有许多其他帖子提出了相关观点)
这是我经常向人们建议他们真正感兴趣的问题的部分原因(这通常更接近于“我的数据是否足够接近分布,我可以在此基础上做出适当的推论?”)通常是拟合优度测试没有很好地回答。在正态性的情况下,通常他们希望应用的推理程序(t 检验、回归等)往往在大样本中工作得很好——通常即使原始分布相当明显非正态——只是当fit test 很可能会拒绝正态性。仅当问题无关紧要时,使用最有可能告诉您您的数据不正常的程序几乎没有用。F
再次考虑上面的图像。红色分布是非正态分布,对于一个非常大的样本,我们可以拒绝基于样本的正态性检验......但在更小的样本量下,回归和两个样本 t 检验(以及许多其他检验此外)将表现得非常好,以至于即使有点担心这种非正态性也毫无意义。
类似的考虑不仅扩展到其他分布,而且在很大程度上扩展到更普遍的大量假设检验(例如,甚至是的双尾检验)。人们不妨问同样的问题——如果我们不能断定均值是否取特定值,那么执行这种测试的意义何在?μ=μ0
您也许可以指定某些特定形式的偏差并查看诸如等价测试之类的东西,但是拟合优度有点棘手,因为有很多方法可以使分布接近但与假设的分布不同,并且不同不同形式的差异会对分析产生不同的影响。如果替代方案是一个更广泛的家庭,其中包括作为特例的 null,则等价测试更有意义(例如,针对 gamma 测试指数)——事实上,“两个单边测试”方法可以通过,这可能是一种形式化“足够接近”的方法(或者如果伽马模型是真的,但实际上它本身几乎肯定会被普通的拟合优度测试拒绝,
拟合优度检验(通常更广泛地说,假设检验)实际上只适用于相当有限的情况。人们通常想要回答的问题不是那么精确,而是更模糊,更难回答——但正如约翰·图基所说,“对正确问题的近似答案,通常是模糊的,比对正确问题的精确答案要好得多。错误的问题,总是可以精确的。 ”
与其他也与可用数据合理一致的情况相比,回答更模糊问题的合理方法可能包括模拟和重新抽样调查,以评估所需分析对您正在考虑的假设的敏感性。
-contamination获得稳健性方法的基础的一部分——主要是通过查看在 Kolmogorov-Smirnov 意义上的一定距离内的影响)ε