费舍尔这句话是什么意思?

机器算法验证 假设检验 统计学意义 参考 实验设计 哲学的
2022-01-30 17:04:59

我一直在到处看到这句名言,但每次都无法理解强调的部分。

一个人暂时“拒绝”一个假设,根据习惯做法,当重要性在 1% 或更高的水平时,肯定会在不超过 1% 的此类决定中犯错。因为当假设正确时,他只会在其中 1% 的情况下犯错误,而当假设不正确时,他永远不会错误地拒绝。[...] 然而,这种计算是荒谬的学术性的,因为事实上没有一个科学工作者具有固定的重要性水平,年复一年,在任何情况下,他都拒绝假设;他宁愿根据他的证据和他的想法对每一个特定的案例进行思考。不应忘记,选择应用测试的案例显然是一个高度选择的集合,即使是单个工人也无法指定选择条件;也不是在所使用的论点中,一个人选择特定试验所指示的实际意义水平显然是非法的,就好像他一生的习惯只使用这个水平一样。

(统计方法和科学推理,1956 年,第 42-45 页)

更具体地说,我不明白

  1. 为什么选择应用测试的案例“高度选择”?假设您想知道一个区域内的人的平均身高是否小于 165 厘米,并决定进行测试。据我所知,标准程序是从该地区随机抽取样本并测量它们的高度。这怎么可能被高度选择?
  2. 假设案例是高度选择的,但这与显着性水平的选择有什么关系?再考虑上面的例子,如果你的抽样方法(我想是费舍尔所说的选择条件)是有偏差的,并且以某种方式有利于高个子,那么整个研究就毁了,显着性水平的主观确定也无法挽救它。
  3. 实际上,我什至不知道“特定试验表明的实际意义水平”指的是什么。是不是p-那个实验的值,一些预设值,比如(in)着名的 0.05,还是别的什么?
3个回答

这是我对费舍尔在你的粗体引文中所说的话的解释。不应该忘记,在选择要检验的假设方面有很多工作要做,以至于即使是一个人的决定,您也无法全部指定。还不应忘记,由于上述原因,您不能始终以相同的方式决定特定试验的显着性水平,作为终生的习惯。

  1. 由于研究人员的偏见及其当前的知识状况,科学假设被选为值得针对许多其他竞争假设进行测试。假设是“高度选择的”,而不是样本假设是我们应用测试的情况

  2. 假设的选择过程会影响我们的显着性水平。如果我们非常确定一个假设,那应该使显着性水平不那么严格以满足我们自己。如果我们不确定是否有更高的举证责任。其他因素也起作用,例如在药物试验中,第一类错误比第二类错误更糟糕。

  3. 我认为当他说“由”指示时,他的意思只是“被选中”。是的,这是一个预设值,如果 p 值更极端,我们会拒绝该假设。

费舍尔所指的案例不是观察,而是测试。也就是说,我们选择假设进行检验。我们不只是测试随机假设——我们基于观察、文献、科学理论等。

如果您确实测试了随机假设,那么您错误的次数(在引用的第一句话中)将是 1%(或选择的任何值)。例如,如果我们测试假设,例如

  • 一个人社保号的奇偶性与他的智商有关

  • 金发的人比黑发的人扔飞盘好

  • 在 Cross Validated 上获得答案的时间与您名字中的音节数量有关。

并以 1% 的比例测试了一大堆,我们会在大约 1% 的时间内拒绝空值,并且这样做是错误的。(当然,除非我对上述废话有所了解)。

我曾经看过一篇关于头发颜色和飞盘投掷的文章——它发现了不同之处!所以,我把这种事情叫做“飞盘研究”。

但我最喜欢这句话的部分是:

因为事实上,没有一个科学工作者具有固定的意义水平,年复一年,在任何情况下,他都拒绝假设;他宁愿根据他的证据和他的想法对每一个特定的案例进行思考。

他一定在他的坟墓里旋转。

试图查看引用的背景,我来到了这本书的一个版本(我不确定哪个版本),它的引用略有不同

https://archive.org/details/in.ernet.dli.2015.134555/page/n47

试图解释科学研究中意义测试的说服力,通过参考可能陈述的假设频率,基于它们,是对还是错,因此似乎错过了这些测试的本质性质。一个人暂时“拒绝”一个假设,按照习惯做法,当重要性在 1% 或更高的水平时,肯定会在不超过 1% 的此类决定中犯错。因为当假设正确时,他只会在其中 1% 的情况下犯错误,而当假设不正确时,他永远不会错误地拒绝。因此可以做出这种不等式陈述。然而,这种计算是荒谬的学术性的,因为事实上没有一个科学工作者具有固定的重要性水平,每年,在任何情况下,他拒绝假设;他宁愿根据他的证据和他的想法对每一个特定的案例进行思考。此外,计算仅基于一个假设,根据证据,该假设通常根本不被认为是正确的,因此,假设这样一个短语具有任何含义,错误决策的实际概率可能是远低于指定显着性水平的频率。对于一个拒绝假设的实际人来说,当然,这与他可能被引导错误地接受假设的概率无关,因为在他的情况下,他并没有接受它。往往根本不被认为是正确的,因此,假设这样一个短语具有任何含义,错误决策的实际概率可能远低于指定重要性水平的频率。对于一个拒绝假设的实际人来说,当然,这与他可能被引导错误地接受假设的概率无关,因为在他的情况下,他并没有接受它。往往根本不被认为是正确的,因此,假设这样一个短语具有任何含义,错误决策的实际概率可能远低于指定重要性水平的频率。对于一个拒绝假设的实际人来说,当然,这与他可能被引导错误地接受假设的概率无关,因为在他的情况下,他并没有接受它。

在我看来,使用拒绝可能性的数学表达,I 类错误,作为一些严格的论点,这似乎是一种批评。这些表达通常不能很好地表达相关内容,也不严谨。

  1. 为什么选择应用测试的案例“高度选择”?

    这似乎与句子有关

    此外,计算仅基于一个假设,根据证据,该假设通常根本不被认为是正确的

    我们对正在测试的假设并非无动于衷,而且通常正在测试的假设被认为是正确的。

  2. 这与显着性水平的选择有什么关系?

    这涉及

    因此,假设这样一个短语具有任何含义,错误决策的实际概率可能远低于指定显着性水平的频率

    当零假设为时,p 值只是犯错的频率。但实际犯错的频率会有所不同(更低)。

  3. 什么是“特定试验表明的实际意义水平”指的是

    我相信这部分是指某种 p-value hacking。在观察发生后更改显着性水平 alpha 以匹配观察到的 p 值,并从一开始就假装这是截止值。