向学生教授非显着性结果和大效应量

机器算法验证 统计学意义 规模效应 教学
2022-04-04 03:11:39

今年我要给心理学二年级的学生教授统计学。我们将训练诸如单向方差分析之类的方法。该示例将是酗酒者、非酗酒者和戒酒者之间认知任务的时间反应。这只是一个虚构的、令人兴奋的例子。

我想问大家,在解释具有大效应量的统计上不显着的结果时,我应该告诉他们什么。

F(2,21)=3.14;p=0.22,η2=0.30.

关于如何理解这些发现,你会对心理学学生说些什么?

A) 结果在统计上不显着 F(2,21) = 3.14, p 值 = 0.12, eta = 0.20 因此研究人员的假设(关于酗酒对工作记忆的影响)被拒绝。

B) 尽管结果在统计上不显着 F(2,21) = 3.14,p 值 = 0.20,但由于较大的效应大小 = 0.20,研究假设可能是正确的(因此需要进一步检查)。η2

C) 结果表明,数据与无影响(酗酒对能力)的零假设一致,F(2,21) = 3.14,p 值 = 0.20,但大效应大小表明研究假设可能是正确的。η2

D)……还有什么?

3个回答

我不会以任何这些方式向他们解释。(另请注意,其中一些解释中的数字是错误的——你需要更加小心)

A) 结果在统计上不显着 F(2,21) = 3.14, p 值 = 0.12, eta = 0.20 因此研究人员的假设(关于酗酒对工作记忆的影响)被拒绝。

你不能支持这种说法——缺乏存在预测效果的证据与不存在效果的证据不同。

C) 结果表明,数据与无影响(酗酒对能力)的零假设一致,F(2,21) = 3.14,p 值 = 0.20,但大效应大小 η2 表明研究假设可能是正确的。

如果你试图向他们展示如何构建一个结论,我会说 C 的广义形式最接近合理(尽管我认为为此目的你也可以做得更好),但我倾向于解释更倾向于大致沿线的东西

“结果与没有效应一致,但估计的效应量很大;这是因为效应量的标准误差也很大——我们无法从这些判断人口效应是大还是小数据;样本量太小,无法很好地估计。”


我还要补充一点,反应时间一般不会接近正态分布。通常它们非常偏斜,并且往往与均值相关(较小的均值与较小的标准偏差相关联)。我不会使用带有反应时间的回归/方差分析;我会选择一个更合适的模型。

以@Isabella 的评论为开端。以下是一些可能与您的数据非常相似的虚假数据,以供讨论。我不知道你是否使用 R 统计软件,但其他类型的软件会对这些数据做同样的事情。

set.seed(907)
a = rnorm(8, 13, 7)   # alcoholics
n = rnorm(8, 15, 5)   # non
x = rnorm(8, 20, 5)   # ex
y=c(a,n,x)                 # data in stacked format
g=as.factor(rep(1:3, 8))   # group number 1, 2, 3

首先看描述性统计,也许回顾一下 DF 的均值以及哪些信息进入 SS(Group)(组均值)和 SS(Error) [组方差]。那么哪些部门会导致 F 统计量。然后将 ANOVA 表分开。

summary(a); sd(a)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  3.655   8.117  12.896  12.464  15.293  20.847 
[1] 5.919241   # sd of gp a
summary(n); sd(n)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  3.597  11.780  15.221  14.672  20.023  21.437 
[1] 6.276581
summary(x); sd(x)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  11.60   14.68   17.28   17.15   18.01   25.16 
[1] 4.046853

各自的平均值大约是 13、15、17,所以可能会有影响。中位数显示出类似的模式。

查看数据的条形图(或点图)。你看有什么不同吗?为什么手段之间的差异没有表现得更清楚?

stripchart(y ~ g, pch=19)

在此处输入图像描述

也许也看看箱线图。较大的可变性掩盖了中位数的差异。

boxplot(y ~ g, col="skyblue2", horizontal=T)

在此处输入图像描述

现在看看 ANOVA 表。

anova(lm(y ~ g))

Analysis of Variance Table

Response: y
          Df Sum Sq Mean Sq F value Pr(>F)
g          2  16.65   8.324  0.2472 0.7832
Residuals 21 707.07  33.670   
  • 残差(误差)线的平方和很大,所以均方很大。F 统计量是 MS(Group) 与 MS(Resid) 的比率。如此大的 MS(Error) 使 F 统计量变小,因此 P 值变大,导致结果不显着。

  • 如果你有更多的数据,那么 DF 会更大,MS(Error) 更小,F 更大,P 值更小。

  • 或者,如果组方差较小,则 MS(Error) 可能足够小以产生显着影响——即使在当前样本量下也是如此。

这是分布 F(2, 21) 的图。的观测值 显示为垂直虚线。P 值是密度曲线下虚线右侧的面积。F

在此处输入图像描述

F(2,21)=3.14;p=0.22,η2=0.30.

D) 其他任何东西

null 被“接受”,可能没有效果。“不拒绝”是什么意思?

这可能意味着两件事。首先,这可能意味着您对效果一无所知。如果您采用 RA Fisher 对 p 值的理解,那么没有拒绝就等于没有增加知识。

如果你从 Pearson 和 Neyman 决策理论的角度来处理这个问题,那么这意味着你应该表现得好像没有关系一样。然而,从 Pearson 和 Neyman 推论的角度来看,您根本没有发现。

由于人们滥用它并忽略了影响大小,因此 p 值会受到很大影响。

它告诉您的是,尽管可能随机出现较大的效果大小,但仍然无法证明它与零不同。

想象一下,我是一名新秀大联盟棒球运动员,我正在用 5 次击球击球 800 次。我的影响力是巨大的,但我不能伪造我的真实击球率是 400(p<.058).

不拒绝具有较大观察效果的 null 可能意味着很多事情。

首先,这可能意味着根本没有效果。如果有关于这方面的文献表明存在影响,则需要进一步调查。结果可能是假阴性。如果没有文献,这可能意味着每个人都得到了不重要的发现,因此没有编辑发表这些发现。所以可能没有效果。

其次,可能存在糟糕的假设或实验设计。可能是有效果,但假设或实验构造不佳。例如,在尤尔悖论的一个著名案例中,加州大学伯克利分校发现其招生对女性存在性别偏见。事实上,虽然效果大小不一定那么大,但效果得到了强烈支持。一项更深入的调查确定,招生对男性存在性别偏见,尽管影响大小仍然很小。

糟糕的实验设计导致了与事实相反的结论。

可能是实验设计太简单了。例如,前酗酒者之间可能存在一些隐藏的偏见,或者说“是”参与的人之间可能存在隐藏的偏见。性别很重要。有可能整个范围的事情实际上都很重要,但是将分点分为三组是一个糟糕的划分。

这可能意味着方差分析是错误的测试。对于反应时间,有一个合理的论据可以证明假设被违反了。

困难在于频率论的统计分析方法断言空值是 100% 完全正确的。如果你拒绝空值,那么在一定程度上你可以断言它不是一个真实的陈述。但是,如果 null 没有被拒绝,那并不意味着它是真的。

统计分析的频率论方法是一种概率形式的作案方式。If A then B, and NOT B, 因此 NOT A. 但是,句子逻辑并不意味着“如果 A 那么 B,并且 B,因此 A”。如果 B 为真,则 A 可以为真或假。虽然如果 A 为真,则 B 必须为真,但我们知道 B 为真。如果 A 为假,B 仍然可以为真。这就是为什么费舍尔认为未能拒绝空值与不了解该主题相同。

从逻辑上讲,不拒绝 null 意味着 A 为真或 A 为假。效果大小与该讨论无关。由于 A 是真还是假是重言式,所以你做什么不应该取决于你的实验结果。

如果您认为应该有影响,那么您可以为了您自己的个人利益,扩大您的调查。如果您认为不应该有影响,您可以为了您自己的个人利益而不再继续调查。但是,结果不应影响您的决定。就好像你一开始就没有决定去看。