统计上的不显着性是致命的吗?

机器算法验证 统计学意义
2022-03-28 02:52:15

如果这个问题已经被做死了,我深表歉意,但作为一个非统计学家,我真的不知道底线是什么。我正在查看作为经济干预对象的 30,000 人的样本。这种干预使受试者的年收入平均增加 2000 美元。然而,该结果在通常水平上没有统计学意义。从统计的角度来看,干预是否失败了,如果没有,还能做些什么?

4个回答

统计上的不显着性并不意味着所测试的效果不存在,而是表明观察到的数据并未提供存在该效果的有力证据。

例如,如果您有一个未加载的六面骰子,但其面上的数字是 {1,2,3,4,5,5} 而不是 {1,2,3,4,5,6},并且如果您只滚动 3 次,那么通过如此小的样本量可能无法看出骰子会给您更多的 5。这并不意味着模具与普通模具没有什么不同(毕竟,我们有检查它的好处,我们可以清楚地看到它是不同的)——这可能只是我们需要收集更多关于模具观察到的行为,以便对模具的内在属性做出统计上显着的推断。

类似地,即使是 30000 的样本量也可能不足以检测您的总体在两种处理下的行为差异,因为您的统计检验的功效较低。或者,也许事实是您观察到的平均增加实际上是由于随机机会,并且没有真正存在的影响。由于您没有指定您对 I 类错误的容忍度,我真的不能说。

这里的要点是,未能检测到显着性并不意味着不存在任何影响——它只是意味着,由于随机机会或缺乏权力,数据提供的证据不足以证明假设的影响以高度的可信度存在.

嗯,这当然不是好消息。对不起。

您的结果没有提供任何证据证明存在效应。当然,这种影响可能仍然存在:它可能比您预期的更小或更多变,或者您的实验存在某种缺陷并且未能检测到它。

那么,你现在能做什么呢?

0)检查您的数据确保没有发生任何愚蠢的事情。缺失值有时会被编码为 0s/-1s/99s,这些数字显然不应该作为实际值输入到您的分析中。同样,如果您将人们随机分配到治疗/控制组,请确保这些组实际上是相似的。人们总是被这些虫子咬伤。

1)执行功率分析。理想情况下,您应该在开始项目之前进行一次,但现在进行一次仍然可以帮助您确定您的实验是否有合理的机会检测到您的预期效果。如果不是,(也许您的辍学/不合规率非常高),您可能想要进行更大的实验。

在您的结果变得重要之前,您不应该添加主题、运行分析并重复,但是有很多策略可以缓解与对数据进行多次“查看”相关的问题。

2)查看子组和协变量。也许您提议的干预措施在特定地理区域或年轻家庭或其他方面效果最好。一般来说,最好提前指定所有这些比较,因为利用“实验者自由度”可以显着增加误报率。

也就是说,看起来本身并没有错您只需要提前了解这些是事后/探索性分析的事实,并提供比明确确认性研究更弱的证据。显然,如果您能找出子组不同的合理原因,将会有很大帮助。如果你在北方发现了非常显着的影响,但在饱受干旱、饱受战争蹂躏的南方却没有,那么你的状态就很好。另一方面,我更怀疑它适用于满月期间出生但仅在涨潮时出生的人群的亚群:-)

如果您确实找到了一些东西,您可能会想立即发布。很多人都这样做,但如果你能在第二个样本中证实它,你的论点会更有说服力。作为妥协,考虑保留一些数据作为验证集;使用一些数据来寻找协变量和验证集来确认您的最终模型。

3)空结果可以提供信息吗?如果以前的工作发现了类似的影响,那么看看您是否确定了解释为什么它们没有在您的人群中重复的因素可能会很有用。发布空结果/复制失败通常很棘手,因为需要让审稿人相信你的实验设计得足够好,并且有足够的能力检测到受欢迎的效果。n=30,000但是,您在这方面的状态可能非常好。

祝你好运!

关于标题问题:绝对没有。在你的情况下,没有足够的信息,因此我的评论和反对票。此外,国际海事组织,将统计意义和实际意义混为一谈的问题在这里已经完成了一半,而且您还没有说足够的内容来使您的问题与众不同。编辑如果我看到改进(现在已锁定),我将撤消我的反对票,如果它很重要,我可能会支持。你的问题解决了一个常见的、重要的误解,值得在剩下的时间里完成,但事实上,很难说你的情况有什么新的东西可以使它成为一个有用的例子。

从统计的角度来看,干预是否失败了,如果没有,还能做些什么?

再说一次,到目前为止你做了什么?借用您的术语,您的分析也很可能失败(IMO,“失败”在这两种情况下显然都太苛刻了)。这就是为什么我问你的测试。围绕前后分析选项存在相当多的争议,随机抽样或缺乏随机抽样与分析选项的选择有关(请参阅“分析前后处理控制设计时的最佳实践”)。这就是我询问对照组的原因。

如果可以改进您对测试的选择,请(显然)这样做。除了检查您的数据(正如@MattKrause明智地建议的那样),请检查您的测试假设。通常的前置后设计涉及很多,并且经常被违反。

  • 正态分布可能是较差的模型,尤其是对于变化分数和财务数据。考虑非参数分析。
  • 异方差很常见,尤其是在没有随机选择或部分随机干预的情况下。一些测试对此比其他测试更敏感——尤其是传统测试。
  • 传统的 ANCOVA 假设干预措施和协变量之间没有相互作用如果基线收入影响干预的可行性,您可能应该改用缓和回归(Final Income = Baseline Income + Intervention? + Interaction + Error,基本上),假设您确实有一个对照组。如果没有,你有超过2次吗?

您还有哪些关于您个人的其他信息?探索协变量和调节因子是减少您的干预的“信号”(效果)必须压倒的统计“噪音”(错误)数量的好方法,以便您的测试“检测”它(支持拒绝零)。如果您可以通过干预以外的方式解释很多差异,或者解释为什么您的干预不会平等地影响每个人,那么您可能会更好地了解您的干预效果到底有多大,其他条件都相同——这很少见自然的默认状态。我相信这是马特建议 2 的精神。

关于他的警告,不要害怕探索你没有事先指定的协变量和调节器;只需采用探索性思维方式,并在您发布的任何报告中明确承认这种认识论转变。关于统计意义和实际意义,需要重复的关键点是它们的重叠通常是有限的。统计显着性的许多实际意义在于您打算如何理解它。如果您正在寻找支持进一步研究的证据(例如,研究资助),拒绝探索性假设可能就足够了。AFAIK,这是统计显着性默认暗示的唯一一种实际意义,并从历史上解释了术语的选择:显着足以证明更多研究的合理性

如果您正在寻找关于您的干预是否值得的统计观点,那么您可能以错误的方式提问。统计显着性本身并不能回答这个问题;它仅直接代表对有关零假设的非常具体问题的回答。我想这相当于另一个建议:检查你的零假设。它通常默认说明在您的样本中观察到的影响完全是由于抽样误差(即干预的影响 = 0)。你真的对任何改变感兴趣吗?你需要它有多一致才能证明干预是合理的?这些问题部分决定了适当的空值;需要回答他们。

在确认性测试中,您需要提前回答。由于您已经运行了测试,因此任何具有不同零假设但相同样本的相同类型的新测试都将是探索性的。除非您可以收集另一个样本,否则最好将其他类型的测试也视为探索性的。严格意义上的验证性假设检验对“禁止偷看”规则特别严格;IMO,这是整个假设检验范式的一个弱点。AFAIK,贝叶斯分析对此可能不那么严格,如果您可以收集更多数据,可能会对您特别有益,因为您当前的结果可以帮助您了解先前的概率分布。

另一种解决问题的方法是关注效应大小和置信区间。2000 美元是你想要的方向的改变,对吧?如果您的测试结果与我认为您认为的意思相同,那么假设干预没有效果,如果您要重复研究,那么您发现负面变化的可能性超过 5%。如果您的投资有任何积极影响,则概率低于您的p值。如果您在治疗前景上投入了足够多的资金,也许您应该复制这项研究。再说一次,你比我更清楚还有什么会影响这个决定。


PS 尽管我做了介绍,但我还是设法对这个“半死不活”的话题说了很多。希望我提供了一个有用的想法总结,而不是预先存在的答案,但如果其中大部分对您个人来说不是很有用,我不会感到惊讶。我想要更多信息的一个重要原因是,很好地回答一个模糊的问题实际上需要涵盖很多不必要的基础,这有点浪费时间。尽管如此,如果您对我们进行编辑,我可能会分节不再适用的部分,并且我可能会扩展仍然适用的部分。从传入的观点可以明显看出,这个问题引起了观众的共鸣,所以这可能会成为一个非常有用的问题,需要做更多的工作。

作为贝叶斯主义者,我经常发现自己将实验解释为零假设的积极证据。我会问以下几点:

  1. 这是 2,000美元的平均差异,但就标准化平均差异而言,这是多少?
  2. 如果这种干预有效,您期望观察到的(标准化)平均差异有多大?
  3. 你的估计有多精确?如果估计是 + $ 2000 +/- $ 20,000,那么您还没有学到很多东西——也许有太多的可变性,无法知道您的干预是否有效。
  4. 既然您已经在一个相当健康的 30,000 个样本中观察到了这种看似无效的效果,是否是时候争辩说您知道干预有效的可能性较小?

当然,许多考虑因素都适用。如果您在传统截止值为 0.01 时查看p = .02,那么得出零假设为真的结论是愚蠢的,因为在这两个假设下数据可能相当可能。

因此,我建议查看 Zoltan Dienes 的网页和他的贝叶斯因子计算器通过指定您的参数估计值、其精度以及如果您的干预有效的参数值的合理范围,您可以获得贝叶斯因子,告诉您这是否是您的干预有效或无效的证据,或者是否没有证据之一方式或其他。

当然,其他评论者的回复也很重要:检查您的模型、检查您的数据等,以确保您拥有的参数估计是合适的。