关于如何推导出假设统计检验的一般指南?

机器算法验证 假设检验
2022-03-24 09:15:11

一般来说,假设检验的过程可以分为 4 个步骤:

  1. 根据假设制定实际问题。
  2. 计算一个统计量,一个纯粹的数据函数。所有好的测试统计都应该有两个属性:(a)为真时为真时不同;(b)在假设为真的情况下,它们的概率分布应该是可计算的。TH0H1H0
  3. 选择一个关键区域。我们必须能够决定的哪种值最强烈地表明为真,而不是为真。TH1H0
  4. 决定临界区的大小。这包括说明我们准备冒多大的风险得出错误的结论。我们定义了检验的显着性水平或大小,我们用表示,作为我们准备在实际上为真时拒绝接受的风险。αH0

这似乎是最有创意的一步,真正将特定测试与其他测试区分开来的是统计量的选择。因此,我的问题是:统计假设检验的作者是如何得出他们的统计数据的?T

给定一个特定的问题,理想的(如果这完全可以根据客观的理由定义)统计应该是什么总是显而易见的?上面步骤 2 中列出的这两个要求似乎是两个广泛的要求,可以设计许多不同的统计数据来检验相同的假设。例如,它会不会是基于中位数或其他统计数据的 t 检验的不同替代检验......?

2个回答

统计假设检验的作者是如何得出他们的统计数据的?

有多种方法可以识别测试统计数据,具体取决于具体情况。在一些合理的假设下,尝试确定您认为重要的替代方案并尝试获得一些力量来对抗这些替代方案非常重要。

例如,如果您有一个与总体均值有关的假设(实际上,让我们简化并考虑单样本检验),例如,基于样本均值的统计量似乎是统计量的明显选择,因为它往往在 null 和替代项下表现不同。但是(例如),如果您正在寻找拉普拉斯/双指数族()的移位替代方案,则基于样本中位数的东西将是更好的选择对均值变化的测试,而不是基于样本均值的测试。DExp(μ,τ)

如果您有一个特定的参数模型(基于某些特定的分布族),通常至少考虑一个似然比检验,因为它们对于大样本具有许多有吸引力的特性。

在您尝试从头开始设计测试的许多情况下,测试统计量将基于一个关键数量单样本 t 检验(以及您之前可能见过的许多其他检验)中的检验统计量是一个关键量。

给定一个特定的问题,理想的(如果这完全可以根据客观的理由定义)统计应该是什么总是显而易见的?

一点也不。例如,考虑一个针对 ominibus 替代方案的一般正态性测试。有许多方法可以衡量偏离正态性的情况(已经提出了数十种此类测试),并且在典型的样本量下,没有一种方法对所有替代方案都最有效。

在尝试为这样的情况设计测试时,需要一定的创造力才能提出一个对您最感兴趣的选择具有强大能力的选择。

似乎上面第 2 步中列出的这两个要求过于宽泛,可以设计许多不同的统计数据来检验相同的假设。

确实。如果您做出一些参数假设(假设数据来自某个分布族,然后使您的假设与它的一个或多个参数相关),那么可能会对所有此类情况进行最佳测试(特别是,统一最强大的测试),但即使你的参数假设更像是一个粗略的猜测,那么对这个假设的一些鲁棒性的渴望可能会改变很多事情。

例如(再次,简单地对位置偏移进行一个样本测试),如果我从正常人群中抽样,那么 t 检验将是最好的。但是,假设我认为这可能并不完全正常,除此之外,其他一些过程可能会产生少量污染,并且具有中等程度的重尾,然后是更强大的东西(甚至可能是基于等级的替代方案,例如已签名的rank test)可能在各种此类情况下表现更好。

有用的检验统计量是其分布取决于感兴趣的参数而不依赖于统计模型的其他部分的统计量。这样,它在原假设下的分布(即,当感兴趣的参数具有原假设指定的值时)可以被完全指定。理想的检验统计量增加了具有强烈依赖于感兴趣参数的分布的特性,因此得到的检验具有良好的功效。

考虑学生的 t 检验。它是作为小样本均值的显着性检验而开发的(请参阅“假设检验”和“显着性检验”之间的区别是什么?)。Gossett 面临的困难是来自正常总体的小样本的均值分布取决于感兴趣的参数,但也取决于“讨厌的参数”,即总体的标准偏差小样本条件意味着从样本估计的标准偏差不是对的充分估计。为了解决这个问题,Gossett 设计了检验统计量μσsσt=n×x¯/s它仅取决于数据,并且对于任何给定的样本大小具有定义的分布。重要的是,该分布完全不受的影响。(实际上,如果我没记错的话,这种形式的检验统计量是费舍尔的修订版。)nσ

如今,要看到 Gossett 解决方案的天才并不总是那么容易,尤其是因为他的 t 统计量看起来几乎与已知方差的正态分布的 z 统计量相同(只需用代替)。困难的部分是确定检验统计量分布的性质。直到费舍尔后来的一篇论文才证明戈塞特的分布是正确的。σs

在许多情况下,统计测试是通过查找测试统计量来设计的,该统计量采用可以证明在可接受的假设下逼近已知分布的分布。例如,许多测试基于卡方分布的近似值。