为什么更大的样本量可以增加检验的功效?

机器算法验证 假设检验
2022-03-18 17:59:43

来自维基百科

样本量决定了测试结果中固有的抽样误差量。在其他条件相同的情况下,在较小的样本中更难检测到效果。增加样本量通常是提高检验统计能力的最简单方法。

我想知道为什么通常说更大的样本量可以增加测试的功效(即真阳性率更大的样本量总是会增加测试能力吗?

补充:假设在每个样本量n, 拒绝 null iffTn(X)cn. 权力如何随n取决于如何Tncn定义为n,不是吗?即使cn选择以便测试规则的大小是一个值α[0,1]为所有人固定n值,将功率必然增加n?

严谨和直观的解释都是受欢迎的。

谢谢!

4个回答

当原假设为假时,检验的功效取决于检验统计量的分布。如果Rn是在原假设和样本量下检验统计量的拒绝域n, 幂是

β=Prob(XnRn|HA)
在哪里HA是原假设并且Xn是大小样本的检验统计量n. 我假设一个简单的替代方案——尽管在实践中,我们通常关心一系列参数值。

通常,检验统计量是某种平均值,其长期行为受大数的强和/或弱定律支配。随着样本量变大,检验统计量的分布接近点质量的分布——在零假设或替代假设下。

因此,作为n变大,接受区域(拒绝区域的补充)变得更小,更接近空值。直观地说,无效结果下的可能结果和备选方案下的可能结果不再重叠——这意味着拒绝概率接近 1(在HA) 和 0 下H0. 直观地说,增加样本量就像增加望远镜的放大倍数。从远处看,两个点似乎近在咫尺:用望远镜,你会发现它们之间有空间。样本量将“概率空间”置于零值和备选值之间。

我试图想一个不会发生这种情况的例子——但很难想象自己使用一个行为最终不会导致确定性的测试统计量。我可以想象事情不起作用的情况:如果讨厌的参数数量随着样本量的增加而增加,事情可能无法收敛。在时间序列估计中,如果序列“不够随机”并且过去的影响未能以合理的速度减少,也会出现问题。

这是一个直观的答案:在现实世界中,您几乎总是从有限的人口中抽样(尽管它可能非常大)。如果您设法测量整个人口,则功率将是无限的(嗯,1.0,这本质上就像无限功率 - 您可以检测到任何差异) - 您会知道确切的差异。您越接近整个人口(假设您的样本是随机的),您的估计就越精确。

但是,如果您远离随机样本,情况就不再如此。再次直观地假设您正在测试成年男性和成年女性之间的身高差异。一种非随机的极端方法是测试一个非常矮的男性样本(例如,你从一群骑师中抽样)和一个非常高的女性(篮球运动员)样本。

多思考一下问题的一部分:

更大的样本量总是会增加测试能力吗?

如果我们只讨论统计学入门课程中通常涵盖的测试并且这些测试的条件成立(例如简单随机样本,中心极限定理给出近似正态,零假设为假等),那么是的,增加样本量会增加力量。但是,在某些情况下,增加样本量可能不会增加功效:

如果底层分布是柯西分布(未定义的均值,无限方差,CLT 不适用),那么增加样本量可能不会增加功效(但我不知道您将对此类数据进行什么测试,甚至不知道遵循柯西理论的现实案例)。

过度采样会导致受试者失去兴趣并停止合作。我记得在一个加勒比岛国的一次选举中,投票变得如此失控,以至于平均每周都会对所有登记选民进行调查,并且厌倦了以至于他们停止回答或只是撒谎。演示文稿表明,如果他们在每次调查中使用较小的样本,那么人们就不会感到沮丧,他们可能会收到更好的结果。

响应率和成本。如果您计划邮寄调查并将调查发送给 1,000 人,但没有进行其他跟进,那么您可能只会收到 100 份回复,但如果您用同样的钱只发送 200 份调查,但您还会发送跟进信函和/或提供奖励,那么您可能会收到 150 份回复,因此来自 200 名受试者的较小计划研究的实际数据量将超过计划的 1,000 名受试者的数据量。这也会影响数据质量,50 人的面对面访谈或 100 人的电话访谈可能会产生比 1,000 人的邮寄调查更好的数据质量。

功效的概念仅适用于原假设为假的情况,因此如果原假设为真,则功效将不受样本量的影响。

当对每个受试者进行多次测量时,样本量的概念会更加复杂。这提供了更多的力量,对 20 个受试者中的每一个进行 10 次测量(总共 200 个测量值)或对 50 个受试者中的每一个进行 2 次测量(总共 100 个测量值),通常第二次会提供更多的力量,即使总测量次数较少。

如果感兴趣的参数随时间变化(想想选举投票)并且获得更大的样本将需要更多时间来改变事情,那么这可能会影响功率。考虑比较在一天内采集的 100 个样本与在 2 周内采集的 1,000 个样本(如果在这 2 周内发生公开辩论、丑闻等怎么办)。

如果您有一个 I 型错误不完全是 alpha 的测试,并且它取决于样本量,那么增加样本量实际上会降低功效。考虑一个概率为 null 的二项式检验0.5, test 的替代方法是它更大,我们想用α=0.05. 样本量为n=5如果我们看到 5 次成功(类型 I 错误率 0.03125),我们只能拒绝,样本为n=10如果我们看到 9 或 10 次成功,我们将拒绝(第一类错误率为 0.01074,如果我们在 8 次成功时拒绝,则为 0.05469)。如果真概率是0.6然后拒绝(功率)的概率n=50.07776n=10这是0.04646,因此将样本量加倍降低了功效,但也降低了 I 类错误率,因此并不是一个真正公平的比较。将样本量增加到功效有意义的地方(>80%) 将使找到这样的示例变得更加困难(尽管可能有一些将 n 增加 1 会稍微降低功率)。

如果您在违反假设的情况下运行错误的测试(例如,使用假设方差完全不同的测试),那么您的能力可能不会增加。

如果您首先运行正态性检验,然后根据结果运行不同的第二个检验,那么较大的样本量更有可能拒绝正态检验(即使差异无关紧要)并且如果您运行的检验结果较少比不拒绝正态性更强大,然后增加样本量可能会降低功效(这是反对预先测试正态性数据的一个论据)。

可能还有其他类似的情况超出了维基百科文章试图涵盖的范围。

如需更直观的理解,请查看power.exampR 的 TeachingDemos 包中的函数。