有一种科学错误,即实验者得到的结果与以前的研究人员明显不同,假设他们犯了错误,然后重做实验,直到他们得到一个更期望的值,然后发表。我隐约记得在费曼的书或视频中听说过这个,他描述了由于这种效应,修正已知的常数值所花费的时间比它应该花费的时间要长。
这种效应叫什么,有哪些著名的例子?
更新
我改写了这个问题,以澄清我所说的“意外”结果的意思。乐于助人的评论者指出了费曼的轶事:
其他帖子不包含错误的术语。
有一种科学错误,即实验者得到的结果与以前的研究人员明显不同,假设他们犯了错误,然后重做实验,直到他们得到一个更期望的值,然后发表。我隐约记得在费曼的书或视频中听说过这个,他描述了由于这种效应,修正已知的常数值所花费的时间比它应该花费的时间要长。
这种效应叫什么,有哪些著名的例子?
更新
我改写了这个问题,以澄清我所说的“意外”结果的意思。乐于助人的评论者指出了费曼的轶事:
其他帖子不包含错误的术语。
一种表述方式是发表偏倚,当实验结果影响是否发表结果的决定时,就会出现这种情况。这是一种众所周知的偏见形式,会影响学术研究。我不熟悉任何“著名”的例子,但医学领域的一些作品描述了Wilmherst (2007)中的一些非著名例子。
发表偏倚的例子本质上是难以检测的,因为该例子的未发表部分是未发表的(因此难以检测)。一般来说,发表偏倚是通过对已发表作品中报告的指标进行统计分析来检测的。因此,大多数已知的学术文献中发表偏见的“例子”都是仅来自已发表作品的发表偏见的推断。
示例:基于一个真实的实验,为了保护有罪的人,省略了人员和组织的名称(以及无关紧要的细节)。
在一项比较两种制造方法(1 和 2)的研究中,项目,直到失败。(观察值越大越好。)结果和样本的汇总统计如下:x1
x2
summary(x1); length(x1); sd(x1)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.1099 2.8264 7.0881 10.0057 12.8520 46.9993
[1] 100
[1] 10.35345
summary(x2); length(x2); sd(x2)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.1196 3.2247 8.0975 11.1469 15.9245 56.6384
[1] 100
[1] 10.54756
boxplot(x1, x2, col="skyblue2", horizontal=T, notch=T)
每个人都最喜欢的是方法 2(尽管成本更高),而且平均值更大。但方框中重叠的缺口表明没有显着差异。此外,由于样本量大而“肯定没问题”的合并 2 样本 t.test没有发现显着差异。[这是在 Welch t 检验流行之前。] 实验者希望有证据表明方法 2 明显更好。
t.test(x1,x2, var.eq=T)
Two Sample t-test
data: x1 and x2
t = -0.77212, df = 198, p-value = 0.441
alternative hypothesis:
true difference in means is not equal to 0
95 percent confidence interval:
-4.055797 1.773441
sample estimates:
mean of x mean of y
10.00571 11.14689
共识是“异常值扰乱了 t 检验” 并且应该被删除。[似乎没有人注意到新的异常值随着原始异常值的删除而出现了。]
min(boxplot.stats(x1)$out)
[1] 28.41372
y1 = x1[x1 < 28.4]
min(boxplot.stats(x2)$out)
[1] 36.73661
y2 = x2[x2 < 36.7]
boxplot(y1,y2, col="skyblue2", horizontal=T, notch=T)
现在有了“清理数据”y1
和y2
,我们的 t 检验显着(刚好)低于 5% 的水平。非常高兴,最喜欢的赢了。
t.test(y1, y2, var.eq=T)
Two Sample t-test
data: y1 and y2
t = -1.9863, df = 186, p-value = 0.04847
alternative hypothesis:
true difference in means is not equal to 0
95 percent confidence interval:
-4.37097702 -0.01493265
sample estimates:
mean of x mean of y
7.660631 9.853586
为了“确认他们做对了”,单方面(“因为我们已经知道哪种方法最好”)两样本 Wilcoxon 检验发现了显着差异(非常接近 5% 的水平,但“非参数检验不如强大的”):
wilcox.test(y1, y2, alt="less")$p.val
[1] 0.05310917
几年后,当经济紧缩迫使转向更便宜的方法 1 时,很明显方法之间没有实际差异。为了与这一发现保持一致,我对 R 中当前示例的数据进行了采样,如下所示:
set.seed(2021)
x1 = rexp(100, .1)
x2 = rexp(100, .1)
注意:您可以谷歌并找到一个精确的 F 检验来比较指数样本,它没有发现差异,但当时没有人想到使用它。