TL;博士:
- 对于常客统计,1)不再使用显着性检验,2)设置零假设以反映理论并先验决定何时反驳它,以及 3)在这一点周围使用“足够好”的腰带是否有意义零假设?
- 在 R 中,我该怎么做?
这个问题与为什么使用理论未预测的零假设有关?
语境
频率统计是使用最广泛的统计方法,有很多好处。但是,它有几个问题。我将在这里简要讨论它们。然后,我将展示一个示例数据集,以及我的问题:如果我的前提被接受,我们应该如何处理和分析这些数据?
首先,频率论推理通常意味着零假设显着性检验 (NHST),这已被批评了数十年(例如,Wasserstein 等人 2016、McShane 等人 2019、Amrhein 等人 2019),主要是因为它对统计数据进行了二分法,即结果要么通过阈值(几乎总是 p < .05),要么不通过,结果只有在通过时才会被认真对待。这是有问题的,因为显着性测试提供了一种错误的确定感(真/假),但统计很难,也没有捷径。建议是降低 p 值的主导作用,并考虑所有因素(例如,相关的先前证据、机制的合理性、研究设计和数据质量、现实世界的成本和收益、发现的新颖性以及其他因素因研究领域而异)。
其次,科学家习惯于测试没有差异的零假设(AKA“零假设”;即和)。然而,零假设先验地被认为是错误的:事物永远不会完全相等,并且总是存在效果(Cohen 1994)。已经提出了两个建议来改进这一点,它们可以结合起来。首先,有人建议将自己的理论设置为零假设/模型,并尝试用经验证据对其进行证伪(Meehl 1967 将此称为假设检验的“强”形式)。我们不设置任意阈值 (p = .05),而是使用科学推理先验地确定我们何时接受或反驳我们的理论。第二个建议是在我们的预测周围使用“足够好”的腰带,因为数据永远不会与我们的预期完全相似(由 Serlin 和 Lapsley 提出,1985;Zumbo 和 Kroc 很好地解释了,2016)。因此,原假设表明一个特定的变量,, 有一个特定的值, 有一个足够好的宽度. 通过这样做,实验方法的改进产生了更强的理论佐证。这让我们到达.
例子
以下数据纯属假设。假设我对一种植物物种进行了实地调查,发现它在粘土中比沙土更普遍和更大。我假设增长也会受到类似的影响,所以我做了一个快速试验。在这个试点中,我在实验室的粘土或沙子中种植了这两种植物。我用以下代码对此进行了模拟:
require(tibble)
require(tidyr)
set.seed(101)
pilot <- tibble(clay = rnorm(n = 10, 15, 4.5),
sand = rnorm(n = 10, 12, 2.0)) |>
pivot_longer(c("clay", "sand"),
names_to = "soil_type", values_to = "seedling_weight")
并在 14 天后发现以下幼苗重量:
| soil_type | mean | sd |
|-----------|------|------|
| clay | 16.1 | 2.63 |
| sand | 11.1 | 1.98 |
这看起来很有希望。R 中的建模lm(seedling_weight ~ soil_type, data = pilot)显示截距为 16.103,斜率为 -4.982。所以我会使用这些数据来提出一个具体的假设,然后我会用一个更全面的实验室实验来测试它。H0:“在受控的实验室条件下生长 14 天后,在粘土中生长的物种 x 的幼苗比在沙土中生长的幼苗重 4.982 ± Δ 克”,或. 我会定义事先,但我不确定如何(见下文)。
所以我用 40 个花盆(又是虚构的)建立了一个实验室实验,我在其中种植幼苗:一半用粘土,一半用沙子。模拟这个的代码如下:
# I use higher means because growth conditions were probably better in the real experiment
set.seed(101)
experiment <- tibble(clay = rnorm(n = 20, 17, 2.5),
sand = rnorm(n = 20, 13, 1.7)) |>
pivot_longer(c("clay", "sand"),
names_to = "soil_type", values_to = "seedling_weight")
并在 14 天后产生以下幼苗重量:
| soil_type | mean | sd |
|-----------|------|------|
| clay | 16.8 | 2.17 |
| sand | 13.0 | 1.65 |
问题
我想测试来自实验的数据是否落在空模型的范围内或之外. 这有意义吗?如何在不使用飞行员数据的情况下设置此模型?(因为它也可能来自理论)。
我在想的是设置作为效应大小(Zumbo & Kroc,2016 年建议),特别是 Cohen 的 d = .5(大效应)。在这方面我不知道如何计算。我想知道的是在什么范围内差异显着(大)。例如,它可能在 -4 和 -6 之外。所以如果我的实际实验结果超出了这个范围,我会反驳我的理论并提出一个新的假设。
我知道library(infer),我可以在哪里测试点假设。这是朝着正确方向迈出的一步,因为它让我指定了空模型。但是,它比使用直接模型(例如lm())受到的限制要多得多,我仍然需要弄清楚第一的。
参考
- Amrhein、Valentin、Sander Greenland 和 Blake McShane。2019.“退休统计意义”。自然 567(三月):305–7.https://doi.org/10.1080/00031305.2018.1527253。
- 科恩,雅各布。1994. “地球是圆的 (p < .05)”。美国心理学家 49 (12): 997–1003。https://doi.org/10.1037//0003-066X.49.12.997。
- McShane、Blakeley B.、David Gal、Andrew Gelman、Christian Robert 和 Jennifer L. Tackett。2019.“放弃统计意义”。美国统计学家 73 (sup1): 235–45。
- Meehl, Paul E. 1967。“心理学和物理学中的理论检验:方法论悖论”。科学哲学34 (2): 103-15。
- Serlin、Ronald C. 和 Daniel K. Lapsley。1985.“心理学研究中的理性:足够好原则”。美国心理学家 40(1):73-83。https://doi.org/10.1037/0003-066X.40.1.73.[https://doi.org/10.1086/288135](https://doi.org/10.1086/288135)。
- Wasserstein、Ronald L. 和 Nicole A. Lazar。2016. “ASA 关于 p 值的声明:背景、过程和目的。” 美国统计学家 70 (2): 129–33。https://doi.org/10.1080/00031305.2016.1154108
- Zumbo、Bruce D. 和 Edward Kroc。2016. “关于 Rao 和 Lovric 的“检验正态均值和真值的零点假设:21 世纪视角”的一些评论。” 现代应用统计方法杂志 15 (2): 33-40。https://doi.org/10.22237/jmasm/1478001780。