带有零假设的频率论推理,该假设反映了理论,它周围有一条足够好的腰带

机器算法验证 r 假设检验 推理 哲学的
2022-04-12 08:55:48

TL;博士:

  • 对于常客统计,1)不再使用显着性检验,2)设置零假设以反映理论并先验决定何时反驳它,以及 3)在这一点周围使用“足够好”的腰带是否有意义零假设?
  • 在 R 中,我该怎么做?

这个问题与为什么使用理论未预测的零假设有关?

语境

频率统计是使用最广泛的统计方法,有很多好处。但是,它有几个问题。我将在这里简要讨论它们。然后,我将展示一个示例数据集,以及我的问题:如果我的前提被接受,我们应该如何处理和分析这些数据?

首先,频率论推理通常意味着零假设显着性检验 (NHST),这已被批评了数十年(例如,Wasserstein 等人 2016、McShane 等人 2019、Amrhein 等人 2019),主要是因为它对统计数据进行了二分法,即结果要么通过阈值(几乎总是 p < .05),要么不通过,结果只有在通过时才会被认真对待。这是有问题的,因为显着性测试提供了一种错误的确定感(真/假),但统计很难,也没有捷径。建议是降低 p 值的主导作用,并考虑所有因素(例如,相关的先前证据、机制的合理性、研究设计和数据质量、现实世界的成本和收益、发现的新颖性以及其他因素因研究领域而异)。

其次,科学家习惯于测试没有差异的零假设(AKA“零假设”;即H0:μ1=μ2H1:μ1μ2)。然而,零假设先验地被认为是错误的:事物永远不会完全相等,并且总是存在效果(Cohen 1994)。已经提出了两个建议来改进这一点,它们可以结合起来。首先,有人建议将自己的理论设置为零假设/模型,并尝试用经验证据对其进行证伪(Meehl 1967 将此称为假设检验的“强”形式)。我们不设置任意阈值 (p = .05),而是使用科学推理先验地确定我们何时接受或反驳我们的理论。第二个建议是在我们的预测周围使用“足够好”的腰带,因为数据永远不会与我们的预期完全相似(由 Serlin 和 Lapsley 提出,1985;Zumbo 和 Kroc 很好地解释了,2016)。因此,原假设表明一个特定的变量,δ, 有一个特定的值, 有一个足够好的宽度Δ. 通过这样做,实验方法的改进产生了更强的理论佐证。这让我们到达H0:δ=μ±Δ.

例子

以下数据纯属假设。假设我对一种植物物种进行了实地调查,发现它在粘土中比沙土更普遍和更大。我假设增长也会受到类似的影响,所以我做了一个快速试验。在这个试点中,我在实验室的粘土或沙子中种植了这两种植物。我用以下代码对此进行了模拟:

require(tibble)
require(tidyr)
set.seed(101)
pilot <- tibble(clay = rnorm(n = 10, 15, 4.5), 
                sand = rnorm(n = 10, 12, 2.0)) |> 
  pivot_longer(c("clay", "sand"), 
               names_to = "soil_type", values_to = "seedling_weight")

并在 14 天后发现以下幼苗重量:

| soil_type | mean | sd   |
|-----------|------|------|
| clay      | 16.1 | 2.63 |
| sand      | 11.1 | 1.98 |

这看起来很有希望。R 中的建模lm(seedling_weight ~ soil_type, data = pilot)显示截距为 16.103,斜率为 -4.982。所以我会使用这些数据来提出一个具体的假设,然后我会用一个更全面的实验室实验来测试它。H0:“在受控的实验室条件下生长 14 天后,在粘土中生长的物种 x 的幼苗比在沙土中生长的幼苗重 4.982 ± Δ 克”,或H0:δ=4.982±Δ. 我会定义Δ事先,但我不确定如何(见下文)。

所以我用 40 个花盆(又是虚构的)建立了一个实验室实验,我在其中种植幼苗:一半用粘土,一半用沙子。模拟这个的代码如下:

# I use higher means because growth conditions were probably better in the real experiment
set.seed(101)
experiment <- tibble(clay = rnorm(n = 20, 17, 2.5), 
                sand = rnorm(n = 20, 13, 1.7)) |> 
  pivot_longer(c("clay", "sand"), 
               names_to = "soil_type", values_to = "seedling_weight")

并在 14 天后产生以下幼苗重量:

| soil_type | mean | sd   |
|-----------|------|------|
| clay      | 16.8 | 2.17 |
| sand      | 13.0 | 1.65 |

问题

我想测试来自实验的数据是否落在空模型的范围内或之外H0:δ=4.982±Δ. 这有意义吗?如何在不使用飞行员数据的情况下设置此模型?(因为它也可能来自理论)。

我在想的是设置Δ作为效应大小(Zumbo & Kroc,2016 年建议),特别是 Cohen 的 d = .5(大效应)。在这方面我不知道如何计算。我想知道的是在什么范围内差异显着(大)。例如,它可能在 -4 和 -6 之外。所以如果我的实际实验结果超出了这个范围,我会反驳我的理论并提出一个新的假设。

我知道library(infer),我可以在哪里测试点假设。这是朝着正确方向迈出的一步,因为它让我指定了空模型。但是,它比使用直接模型(例如lm())受到的限制要多得多,我仍然需要弄清楚Δ第一的。

参考

  • Amrhein、Valentin、Sander Greenland 和 Blake McShane。2019.“退休统计意义”。自然 567(三月):305–7.https://doi.org/10.1080/00031305.2018.1527253。
  • 科恩,雅各布。1994. “地球是圆的 (p < .05)”。美国心理学家 49 (12): 997–1003。https://doi.org/10.1037//0003-066X.49.12.997
  • McShane、Blakeley B.、David Gal、Andrew Gelman、Christian Robert 和 Jennifer L. Tackett。2019.“放弃统计意义”。美国统计学家 73 (sup1): 235–45。
  • Meehl, Paul E. 1967。“心理学和物理学中的理论检验:方法论悖论”。科学哲学34 (2): 103-15。
  • Serlin、Ronald C. 和 Daniel K. Lapsley。1985.“心理学研究中的理性:足够好原则”。美国心理学家 40(1):73-83。https://doi.org/10.1037/0003-066X.40.1.73.[https://doi.org/10.1086/288135](https://doi.org/10.1086/288135)
  • Wasserstein、Ronald L. 和 Nicole A. Lazar。2016. “ASA 关于 p 值的声明:背景、过程和目的。” 美国统计学家 70 (2): 129–33。https://doi.org/10.1080/00031305.2016.1154108
  • Zumbo、Bruce D. 和 Edward Kroc。2016. “关于 Rao 和 Lovric 的“检验正态均值和真值的零点假设:21 世纪视角”的一些评论。” 现代应用统计方法杂志 15 (2): 33-40。https://doi.org/10.22237/jmasm/1478001780
2个回答

据我所知,您的主要问题可以通过 num_39 的答案来解决,或者也可以通过置信区间(可能是片面的)来解决。

我将解决问题中提出的其他一些问题。我认为区分显着性检验(和 p 值)的正式概念和它的解释方式(经常被误解)是非常重要的。当前一些批评显着性检验的文献倾向于将误解归咎于概念本身,但在我看来,概念本身可以以有效且没有问题的方式使用,而需要批评的是其广泛的误解和误用。这在一定程度上是由其自身的成功造成的,因为在某些时候,许多期刊编辑、审稿人等明确或隐含地强制要求出版物提出显着的结果,这对试图挑逗其重要性产生了非常不健康的激励。任何事物。

归根结底,重要性测试的想法非常古老且非常直观。它基本上说,如果数据在该模型下不太可能,则数据提供了反对概率模型的证据。我们需要在这里记住,许多概率分布为可能发生的一切提供了非零概率,因此如果仅在模型下不可能发生的事情发生时拒绝它,就无法充分了解概率模型是否合适。此外,由于连续概率分布将使任何概率为零,事情变得复杂了。精确的结果,因此原则上可以将任何数据声明为“非常不可能”,这也无济于事。这意味着,为了找到反对模型的证据,需要指定一组概率被认为太小的事件前数据,并且基本上说明模型不会预测该集合会发生,以及如果它发生,这构成了反对该模型的证据(替代假设的作用是,考虑到替代假设有助于以这样一种方式选择集合,即,如果模型确实以某种方式先验地被怀疑是错误的,则“拒绝集合"很可能会发生,也就是说,如果我们怀疑的替代方案是真的,我们很有可能拒绝一个错误的模型)。

一些评论:

  1. 测试可以正式定义为二进制,即“拒绝”或“接受”原假设(后者是一个可怕的术语,因为总是有许多模型与任何数据兼容,因此我们没有证据支持任何特定的零假设为真)。然而,应该清楚的是,这过于简化了情况,因为定义一个二元决策规则我们需要选择一个概率阈值,而精确的概率阈值是人为的。0.07 的概率是不是太小了,应该作为“拒绝”模型的理由?0.04?0.015?0.0099?对此没有客观的答案,实际上也不需要决定,除非涉及不同的行动,结果是一个还是另一个。p值旨在给出“连续” 信息而不是二元决策规则,每个理解 p 值的人都明白,0.04 和 0.06 实际上比这两者中的任何一个与 0.2 或 0.001 更相似,即使有人可能将行动阈值设置为 0.05。还需要理解的是,如果要做出二元决策,则需要阈值,如果我们不能有客观合理的阈值,那么我们所做的任何事情都会带有武断的味道。(请注意,在一些文献中,多个阈值用于谈论“弱/适度/强/非常强的证据”——这比“拒绝/不拒绝”提供了更多信息,但比连续 p 值少。)问题声明“重要性测试提供了一种错误的确定感(真/假)”,

  2. 就我个人而言,我认为现实中没有“真正的”模型这样的东西。概率模型是在数学世界中定义的,这与解释它的现实本质上是不同的。模型是思考的工具,没有任何测试可以说明模型的“真相”。这尤其意味着,无论数据是否拒绝,不应认为零假设是“真实的”,对于替代方案(以及在显着性检验范式之外的其他方法中使用的任何概率模型)也是如此。检验原假设并不意味着我们正在检验它是否真的是真实的,而是数据是否与它不相容,因此我们可能会放弃它,而不是作为“信念”(因为我不会 一开始就不相信),但即使是作为一种工具,一种理解和解释现实的手段。这意味着以下内容被误认为是对显着性检验的反对意见:“但是,零假设先验地被认为是错误的:事物永远不会完全相等,并且总是存在效果。” 即使我同意原假设永远不会为真(这不仅适用于零效应假设,也适用于任何精确指定的效应),但这并不是测试的目的。例如,如果占星家声称某些星座之间的婚姻比其他星座更容易失败,那么观察到的数据很可能与完全随机性一致(不确定科恩是否会声称在这种情况下肯定会产生影响, 事实上,我可以想象其中的原因,例如人们向占星家寻求建议并说“离婚”),无论他们是否离婚,这都是合法的利益。(如果你不相信占星术,那么占星术对社会有没有这种影响可能还是很有趣的。在没有看到数据之前,我对这两种方式都没有强烈的期望,所以一个有趣的问题是什么结果是。)最终,如果有人声称存在某种影响,那么通过意识到数据与随机性或零效应兼容,这种说法肯定会被削弱。这当然完全被一种文化所扭曲,这种文化激励科学家去做一些似乎“证明”他们可能拥有的任何主张的事情,

  3. “科学家习惯于测试没有差异的零假设” - 显着性检验的正式概念中没有任何东西需要这样做,尽管如上所述,在某些情况下它可能是有意义的。上面提到的问题,即模型本质上与现实不同,因此从字面上(并且精确地)不是真的,顺便说一句,也适用于其他零点假设,例如响应中的“有意义的最小距离”之一num_39。这并不会使测试变得毫无用处,只要在收集数据之前,数据是否会显示出反对 H0 的证据真的很有趣(这当然不同于研究人员决心找到这样的证据的情况。采取)。请注意,反对意见不太强烈地适用于片面测试;H0 的一部分不仅可以是零效应,而且可以是所有与预期相反的方向的效应,这在实践中不时发生。

  4. 确实,测试结果本身并没有说明效果大小,而且效果大小通常是相关的。当然,认为该检验决定一个效应是否应被视为具有实质性意义是对显着性检验的误解。有些人似乎认为这应该是根本不运行显着性检验或替换它们的理由,例如,通过置信区间或贝叶斯分析。在我看来,承认不同的方法适用于不同类型的问题会容易得多,有时效果大小是关注的主要焦点,但有时数据与空模型的兼容性,有时两者(或其他类似的东西)作为预测质量)。是否应该使用测试(和/或其他方法)取决于感兴趣的问题,

  5. 是否应该使用零点假设来反映理论显然取决于理论是否允许如此精确的规范。

这一切对我来说似乎并不那么神秘。在我看来,关于显着性检验的许多讨论都将它们视为某种黑魔法,预计会带来各种奇迹,然后因不这样做而受到谴责。如果它们被用于他们可以做的事情,而不是被用于他们不能做的事情,我认为它们不会有很大的问题。

我同意等价的零假设在许多情况下是一个相当无用的假设。在这种情况下,可能首选由理论/其他经验结果提供的优势假设。但是,我认为这里不需要新的程序。我建议你 1) 设置一个优势假设和 2) 使用 t 检验来决定是否拒绝这个假设。

所以你的假设如下:

H0:μ^tμ^cδH1:μ^tμ^c>δ

然后你的测试如下:

μ^tμ^cδs1nt+1nc>tα, nt+nc2