我一直认为更大的样本量更好。
然后我在某处读到了一些关于当样本量较大时如何更容易找到显着的 p 值(即误报),因为重要性被夸大了。
这种现象有名字吗?
我目前正在处理大量样本(大约 5,000 个案例),我在其中进行了 t 检验,结果 p 值小于 0.001。我可以使用什么测试来确定这是否是有效的 p 值,或者是否因为样本量很大而发生这种情况。
我不是统计专家,所以请原谅我帖子中出现的任何“新手”。
我一直认为更大的样本量更好。
然后我在某处读到了一些关于当样本量较大时如何更容易找到显着的 p 值(即误报),因为重要性被夸大了。
这种现象有名字吗?
我目前正在处理大量样本(大约 5,000 个案例),我在其中进行了 t 检验,结果 p 值小于 0.001。我可以使用什么测试来确定这是否是有效的 p 值,或者是否因为样本量很大而发生这种情况。
我不是统计专家,所以请原谅我帖子中出现的任何“新手”。
我一直认为更大的样本量是好的。
几乎总是如此,尽管在某些情况下它们并没有多大帮助。然而,随着样本量变得非常大,最受关注的问题的特定方面发生了变化。
然后我在某处读到了一些关于当样本量较大时如何更容易找到显着的 p 值(即误报),因为重要性被夸大了。
如前所述,这是不真实的,尽管有些事情可能令人担忧。
让我们从基本断言开始:大样本不会阻止假设检验完全按照设计的方式工作。[如果可以,请询问陈述的来源,以某种理由接受这一主张,例如证明它是真实的证据(无论是通过代数论证、模拟、逻辑推理还是其他什么——甚至是参考)。这可能会导致索赔陈述略有变化。]
问题通常不是假阳性,而是真阳性——在人们不想要它们的情况下。
人们经常做出错误的假设,即统计显着性总是意味着具有实际意义的东西。在大样本中,它可能不会。
随着样本量变得非常大,即使与 null 中指定的情况非常微小的差异也可能变得可检测到。这不是测试失败,这就是它应该如何工作!
[在我看来,有时似乎有点反常,虽然几乎每个人都会坚持他们的测试的一致性,但当他们真正得到假设检验时,很多人会抱怨假设检验有问题。]
当这困扰人们时,这表明假设检验(或至少他们使用的形式)没有解决他们所面临的实际研究问题。在某些情况下,置信区间可以更好地解决这个问题。在其他情况下,最好通过计算效果大小来解决。在其他情况下,等效测试可能会更好地解决他们想要的问题。在其他情况下,他们可能需要其他东西。
[警告:如果某些假设不成立,在某些情况下,您可能会随着样本量的增加而增加误报,但这是假设的失败,而不是大样本假设检验本身的问题。 ]
在大样本中,抽样偏差等问题可以完全支配抽样变异性的影响,以至于它们是您唯一看到的东西。解决此类问题需要付出更大的努力,因为与小样本中的抽样变化相比,产生可能非常小的影响的小问题可能在大样本中占主导地位。同样,这种事情的影响不是假设检验本身的问题,而是在获取样本的方式上,或者在实际上不是的情况下将其视为随机样本。
我目前正在处理大量样本(大约 5,000 个案例),我在其中进行了 t 检验,结果 p 值小于 0.001。我可以使用什么测试来确定这是否是有效的 p 值,或者是否因为样本量很大而发生这种情况。
需要考虑的一些问题:
显着性水平:在非常大的样本中,如果您使用与在小样本中相同的显着性水平,那么您就没有平衡两种错误类型的成本;您可以在几乎不损害您关心的效果大小的情况下大幅减少 I 型错误 - 如果没有什么收获,那么容忍相对较高的 I 型错误率是很奇怪的。大样本中的假设检验将明智地在显着性水平低得多的情况下进行,同时仍保持良好的功效(如果您可以获得 99.9% 的功效并将 I 类错误率降低 1 倍,那么您为什么会有 99.99999% 的功效? 10?)。
p 值的有效性:您可能希望解决您的程序对潜在假设失败的稳健性;这不是通过对数据假设的假设检验来解决的。您可能还想考虑与抽样偏差等相关的可能问题(例如,您真的有目标人群的随机样本吗?)
实际意义:在假设两个样本 t 检验的情况下,计算与 null 情况下的实际差异的 CI,查看 CI 的均值差异* - 它应该排除 0,但它是如此之小吗?不在乎吗?
*(或者,如果它与您的情况更相关,也许是效应大小的计算。)
让自己对自己的测试放心的一种方法是(在测试之前,实际上希望在你有数据之前)在一些小但与你的应用程序相关的效果大小下进行功率研究;如果你当时有很好的能力,并且 I 类错误率相当低,那么当效应大小至少有那么大时,你几乎总是会做出正确的决定,而当效应大小为 0 时,你几乎总是会做出正确的决定。您几乎没有总是做出正确选择的唯一部分是在非常小的效应大小的小窗口中(一旦您对拒绝没有强烈兴趣),其中功率曲线从无论您进行功率计算的效果大小是多少。
我不是统计专家,所以请原谅我帖子中出现的任何“新手”。
这个网站的全部目的是产生好的问题和好的答案,而且问题非常好。您不应该为使用该网站而为它的用途而道歉。[然而,它的各个方面在网站上的其他问题和答案中得到了解决。如果您查看本页右侧的“相关”列,您会看到一些类似问题的链接列表(由自动算法判断)。该列表中至少有几个问题是高度相关的,在某种程度上可能改变了您问题的形式或重点,但陈述本身的真实性的基本问题 - 与可能发生的误报有关 -大概会留下来,所以即使你已经追查了这些问题,你大概仍然需要问主要的问题]
例如看到这个问题;它有大约十万。
侧栏中的其他问题之一中的一个数据集具有数万亿的样本量。这是一个很大的样本。在那种情况下,抽样变化(以及假设检验)通常变得完全无关紧要。