为什么“统计显着”还不够?

机器算法验证 假设检验 统计学意义 spss p 值
2022-01-24 09:16:14

我已经完成了我的数据分析并得到了与我的假设一致的“统计上显着的结果”。然而,一位统计学专业的学生告诉我,这是一个为时过早的结论。为什么?我的报告中还需要包含其他内容吗?

4个回答

假设检验与参数估计

通常,假设以二元方式构建。我会把方向性假设放在一边,因为它们不会太大改变问题。至少在心理学中,谈论以下假设是很常见的:群体均值之间的差异是或不为零;相关性为零或不为零;回归系数为零或不为零;r 平方是或不为零。在所有这些情况下,都存在无效假设和有效替代假设。

这种二元思维通常不是我们最感兴趣的。一旦你考虑你的研究问题,你几乎总是会发现你实际上对估计参数感兴趣。您对组均值之间的实际差异、相关性的大小、回归系数的大小或解释的方差量感兴趣。

当然,当我们得到一个数据样本时,一个参数的样本估计值与总体参数是不一样的。所以我们需要一种方法来量化我们对参数值可能是什么的不确定性。从频率论者的角度来看,置信区间提供了一种方法,尽管贝叶斯纯粹主义者可能会争辩说,他们并不严格允许您可能想要做出的推论。从贝叶斯的角度来看,后验密度的可信区间提供了一种更直接的方法来量化您对总体参数值的不确定性。

参数/效果大小

摆脱二元假设检验方法会迫使您以连续的方式思考。例如,组均值的大小差异在理论上会是有趣的吗?您如何将群体意义之间的差异映射到主观语言或实际含义上?标准化的效果度量以及上下文规范是构建用于量化不同参数值含义的语言的一种方式。此类测量通常被标记为“效果大小”(例如,Cohen 的 d、r、等)。然而,使用非标准化度量来讨论效应的重要性是完全合理的,并且通常更可取(例如,组均值的差异对有意义的非标准化变量,如收入水平、预期寿命等)。R2

心理学(和其他领域)有大量文献批评对 p 值、零假设显着性检验等的关注(请参阅此Google Scholar 搜索)。该文献通常建议以置信区间作为分辨率报告效应量(例如,Wilkinson 的 APA 工作组,1999)。

摆脱二元假设检验的步骤

如果您正在考虑采用这种想法,我认为您可以采取越来越复杂的方法:

  • 方法 1a。以原始和标准化术语报告样本效应的点估计值(例如,组均值差异)。当你报告你的结果时,讨论这样的数量级对理论和实践意味着什么。
  • 方法 1b。添加到 1a,至少在一个非常基本的水平上,根据您的样本量,对您的参数估计的不确定性有所了解。
  • 方法 2。还报告效应大小的置信区间,并将这种不确定性纳入您对感兴趣参数的合理值的思考。
  • 方法 3. 报告贝叶斯可信区间,并检查各种假设对该可信区间的影响,例如先验选择、模型隐含的数据生成过程等。

在许多可能的参考资料中,您会看到Andrew Gelman在他的博客和他的研究中谈论了很多关于这些问题的内容。

参考

  • 尼克森,RS (2000)。零假设显着性检验:对一个古老且持续存在的争议的回顾。心理学方法,5(2),241。
  • 威尔金森,L. (1999)。心理学期刊中的统计方法:指南和解释。美国心理学家,54(8),594. PDF

只是为了添加到现有的答案(顺便说一句,这很棒)。重要的是要意识到统计显着性是样本量的函数

当您获得越来越多的数据时,无论您看哪里,都可以发现统计上的显着差异。当数据量很大时,即使是最微小的影响也可能导致统计显着性。这并不意味着所述效果以任何实际方式有意义。

在检验差异时,值是不够的,因为产生统计显着性结果所需的效应大小会随着样本大小的增加而减小在实践中,实际问题通常是是否存在给定最小尺寸的影响(相关)。当样本变得非常大时,值在回答实际问题时变得几乎没有意义。pp

在您开展研究之前,是否有合理的基础怀疑您的假设可能是正确的;并且您进行了一项很好的研究(例如,您没有引起任何混淆);你的结果与你的假设一致并且具有统计学意义;那么我认为你很好,就目前而言。

但是,您不应该认为重要性是您的结果中最重要的全部。首先,您还应该查看效果大小(请参阅我的答案:效果大小作为显着性检验的假设)。您可能还想稍微探索一下您的数据,看看是否能找到任何可能值得跟进的有趣惊喜。

在报告这个和这个以及这个和这个之前,首先要制定你想从你的实验数据中学到什么。通常假设检验(我们在学校学习的这些检验......)的主要问题不是二元性:主要问题是这些检验是针对不感兴趣的假设的假设。请参阅此处的幻灯片 13(下载 pdf 以欣赏动画)。关于效果大小,这个概念没有一般定义坦率地说,我不建议将其用于非专业统计学家,这些是技术而非自然的“效果”度量。你感兴趣的假设应该用外行人可以理解的术语来表述。