分布假设检验——如果你不能“接受”你的零假设,那么做这件事有什么意义呢?

机器算法验证 假设检验 分布 拟合优度 经验累积分布
2022-02-09 06:29:31

各种假设检验,例如 GOF 检验、Kolmogorov-Smirnov、Anderson-Darling 等,都遵循以下基本格式:χ2

H0:数据遵循给定的分布。

H1:数据不遵循给定的分布。

通常,人们会评估某些给定数据遵循某些给定分布的说法,如果拒绝,则该数据不适用于某个水平的给定分布。H0α

但是如果我们不拒绝呢?我一直被教导不能“接受”,所以基本上,我们没有证据拒绝也就是说,没有证据表明我们拒绝数据遵循给定的分布。H0H0H0

因此,我的问题是,如果我们无法得出数据是否遵循给定分布的结论,那么执行此类测试的意义何在?

4个回答

从广义上讲(不仅在拟合优度测试中,而且在许多其他情况下),您根本无法得出空值是真的结论,因为在任何给定的样本量下,存在与空值实际上无法区分的替代方案。

这是两个分布,一个标准正态分布(绿色实线)和一个外观相似的分布(90% 标准正态分布和 10% 标准化 beta(2,2),用红色虚线标记):

在此处输入图像描述

红色的不正常。在说时,我们几乎没有机会发现差异,所以我们不能断言数据来自正态分布——如果它来自非正态分布,比如红色分布呢?n=100

具有相同但更大参数的标准化 beta 的较小部分将更难被视为与正常不同。

但鉴于真实数据几乎从不来自某种简单的分布,如果我们有一个完美的预言机(或实际上是无限的样本量),我们基本上总是会拒绝数据来自某种简单分布形式的假设。

正如George Box 所说的那样,“所有模型都是错误的,但有些模型是有用的。

例如,考虑测试正态性。可能数据实际上来自接近正常的东西,但它们会完全正常吗?他们可能永远不会。

相反,您可以通过这种测试形式获得的最好结果就是您所描述的情况。(例如,请参阅帖子Is normality testing基本上没用?,但这里还有许多其他帖子提出了相关观点)

这是我经常向人们建议他们真正感兴趣的问题的部分原因(这通常更接近于“我的数据是否足够接近分布,我可以在此基础上做出适当的推论?”)通常是拟合优度测试没有很好地回答。在正态性的情况下,通常他们希望应用的推理程序(t 检验、回归等)往往在大样本中工作得很好——通常即使原始分布相当明显非正态——只是当fit test 很可能会拒绝正态性仅当问题无关紧要时,使用最有可能告诉您您的数据不正常的程序几乎没有用。F

再次考虑上面的图像。红色分布是非正态分布,对于一个非常大的样本,我们可以拒绝基于样本的正态性检验......但在更小的样本量下,回归和两个样本 t 检验(以及许多其他检验此外)将表现得非常好,以至于即使有点担心这种非正态性也毫无意义。

类似的考虑不仅扩展到其他分布,而且在很大程度上扩展到更普遍的大量假设检验(例如,甚至是的双尾检验)。人们不妨问同样的问题——如果我们不能断定均值是否取特定值,那么执行这种测试的意义何在?μ=μ0

您也许可以指定某些特定形式的偏差并查看诸如等价测试之类的东西,但是拟合优度有点棘手,因为有很多方法可以使分布接近但与假设的分布不同,并且不同不同形式的差异会对分析产生不同的影响。如果替代方案是一个更广泛的家庭,其中包括作为特例的 null,则等价测试更有意义(例如,针对 gamma 测试指数)——事实上,“两个单边测试”方法可以通过,这可能是一种形式化“足够接近”的方法(或者如果伽马模型是真的,但实际上它本身几乎肯定会被普通的拟合优度测试拒绝,

拟合优度检验(通常更广泛地说,假设检验)实际上只适用于相当有限的情况。人们通常想要回答的问题不是那么精确,而是更模糊,更难回答——但正如约翰·图基所说,“对正确问题的近似答案,通常是模糊的,比对正确问题的精确答案要好得多。错误的问题,总是可以精确的。

与其他也与可用数据合理一致的情况相比,回答更模糊问题的合理方法可能包括模拟和重新抽样调查,以评估所需分析对您正在考虑的假设的敏感性。

-contamination获得稳健性方法的基础的一部分——主要是通过查看在 Kolmogorov-Smirnov 意义上的一定距离内的影响)ε

我第二个@Glen_b的回答并补充说,一般来说,“没有证据不是没有证据”的问题使假设检验和P- 价值不如看起来那么有用。即使在拟合优度评估中,估计通常也是一种更好的方法。可以使用 Kolmogorov-Smirnov 距离作为衡量标准。很难在没有误差的情况下使用它。保守的方法将采用 KS 距离的置信上限来指导建模。这将(适当地)导致很多不确定性,这可能导致人们得出结论,首先选择一种稳健的方法是首选。考虑到这一点,回到最初的目标,当将经验分布与超过 2 种可能的参数形式进行比较时,最终拟合分布的真实方差并不比经验累积分布函数具有更好的精度。因此,如果没有主题理论来驱动发行版的选择,

我认为大多数人都同意的一个观点是,假设检验是对证伪原则的概率适应

如果一个假设在持续的和认真的试图证伪它的尝试中幸存下来,那么它已经“证明了它的勇气”并且可以暂时接受,但它永远无法最终成立。

因此,拒绝的失败绝不意味着为真。只是幸存下来以供进一步审查。H0H0H0

关键是,从纯统计的角度来看,您不能接受,但实际上您可以接受。例如,如果您正在使用风险价值或类似措施来估计投资组合的风险,那么投资组合收益分布就非常重要。那是因为风险是由分布的尾部定义的。

在教科书的案例中,常以正态分布为例。但是,如果您的投资组合回报有肥尾(他们经常这样做),则正态分布近似值会低估风险。因此,检查收益并决定是否要使用正态近似非常重要。请注意,这并不一定意味着运行统计测试,它可能是 QQ 图或其他方式。但是,您必须在某个时候根据对收益的分析和您的收益模型做出决定,是否使用正常。

因此,出于所有实际目的,不拒绝实际上意味着接受,尽管不是严格的统计意义上的。您将接受常态并将其用于您的计算中,这将每天向高层管理人员、您的监管机构、审计师等显示。在这种情况下,不拒绝在各种意义上都会产生深远的影响,所以它是或者比愚蠢的统计结果更强大。