当一个实验者丢弃了太出乎意料的结果时,它叫什么?

机器算法验证 实验设计 术语 选择偏差 谬论
2022-03-30 05:47:51

有一种科学错误,即实验者得到的结果与以前的研究人员明显不同,假设他们犯了错误,然后重做实验,直到他们得到一个更期望的值,然后发表。我隐约记得在费曼的书或视频中听说过这个,他描述了由于这种效应,修正已知的常数值所花费的时间比它应该花费的时间要长。

这种效应叫什么,有哪些著名的例子?

更新

我改写了这个问题,以澄清我所说的“意外”结果的意思。乐于助人的评论者指出了费曼的轶事:

其他帖子不包含错误的术语。

3个回答

另一个答案提到了发表偏见但是,这并不是您真正要问的,即数据挖掘一个相关的XKCD插图是:

https://xkcd.com/882

一种表述方式是发表偏倚,当实验结果影响是否发表结果的决定时,就会出现这种情况。这是一种众所周知的偏见形式,会影响学术研究。我不熟悉任何“著名”的例子,但医学领域的一些作品描述了Wilmherst (2007)中的一些非著名例子。

发表偏倚的例子本质上是难以检测的,因为该例子的未发表部分是未发表的(因此难以检测)。一般来说,发表偏倚是通过对已发表作品中报告的指标进行统计分析来检测的。因此,大多数已知的学术文献中发表偏见的“例子”都是仅来自已发表作品的发表偏见的推断。

示例:基于一个真实的实验,为了保护有罪的人,省略了人员和组织的名称(以及无关紧要的细节)。

在一项比较两种制造方法(1 和 2)的研究中,项目,直到失败。(观察值越大越好。)结果样本的汇总统计如下:n=100x1x2

summary(x1); length(x1);  sd(x1)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.1099  2.8264  7.0881 10.0057 12.8520 46.9993 
[1] 100
[1] 10.35345

summary(x2); length(x2);  sd(x2)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.1196  3.2247  8.0975 11.1469 15.9245 56.6384 
[1] 100
[1] 10.54756

boxplot(x1, x2, col="skyblue2", horizontal=T, notch=T)

在此处输入图像描述

每个人都最喜欢的是方法 2(尽管成本更高),而且平均值更大。但方框中重叠的缺口表明没有显着差异。此外,由于样本量大而“肯定没问题”的合并 2 样本 t.test没有发现显着差异。[这是在 Welch t 检验流行之前。] 实验者希望有证据表明方法 2 明显更好。

t.test(x1,x2, var.eq=T)

          Two Sample t-test

data:  x1 and x2
t = -0.77212, df = 198, p-value = 0.441
alternative hypothesis: 
 true difference in means is not equal to 0
95 percent confidence interval:
 -4.055797  1.773441
sample estimates:
mean of x mean of y 
 10.00571  11.14689 

共识是“异常值扰乱了 t 检验” 并且应该被删除。[似乎没有人注意到新的异常值随着原始异常值的删除而出现了。]

min(boxplot.stats(x1)$out)
[1] 28.41372
y1 = x1[x1 < 28.4]
min(boxplot.stats(x2)$out)
[1] 36.73661
y2 = x2[x2 < 36.7]

boxplot(y1,y2, col="skyblue2", horizontal=T, notch=T)

在此处输入图像描述

现在有了“清理数据”y1y2,我们的 t 检验显着(刚好)低于 5% 的水平。非常高兴,最喜欢的赢了。

t.test(y1, y2, var.eq=T)

        Two Sample t-test

data:  y1 and y2
t = -1.9863, df = 186, p-value = 0.04847
alternative hypothesis: 
 true difference in means is not equal to 0
95 percent confidence interval:
  -4.37097702 -0.01493265
sample estimates:
mean of x mean of y 
 7.660631  9.853586 

为了“确认他们做对了”,单方面(“因为我们已经知道哪种方法最好”)两样本 Wilcoxon 检验发现了显着差异(非常接近 5% 的水平,但“非参数检验不如强大的”):

wilcox.test(y1, y2, alt="less")$p.val
[1] 0.05310917

几年后,当经济紧缩迫使转向更便宜的方法 1 时,很明显方法之间没有实际差异。为了与这一发现保持一致,我对 R 中当前示例的数据进行了采样,如下所示:

set.seed(2021)
x1 = rexp(100, .1)
x2 = rexp(100, .1)

注意:您可以谷歌并找到一个精确的 F 检验来比较指数样本,它没有发现差异,但当时没有人想到使用它。