机器算法验证 - 当一个实验者丢弃了太出乎意料的结果时，它叫什么？ - 吾爱随笔录

当一个实验者丢弃了太出乎意料的结果时，它叫什么？

机器算法验证实验设计术语选择偏差谬论

2022-03-30 05:47:51

有一种科学错误，即实验者得到的结果与以前的研究人员明显不同，假设他们犯了错误，然后重做实验，直到他们得到一个更期望的值，然后发表。我隐约记得在费曼的书或视频中听说过这个，他描述了由于这种效应，修正已知的常数值所花费的时间比它应该花费的时间要长。

这种效应叫什么，有哪些著名的例子？

更新

我改写了这个问题，以澄清我所说的“意外”结果的意思。乐于助人的评论者指出了费曼的轶事：

其他帖子不包含错误的术语。

3个回答

另一个答案提到了发表偏见。但是，这并不是您真正要问的，即数据挖掘。一个相关的XKCD插图是：

一种表述方式是发表偏倚，当实验结果影响是否发表结果的决定时，就会出现这种情况。这是一种众所周知的偏见形式，会影响学术研究。我不熟悉任何“著名”的例子，但医学领域的一些作品描述了Wilmherst (2007)中的一些非著名例子。

发表偏倚的例子本质上是难以检测的，因为该例子的未发表部分是未发表的（因此难以检测）。一般来说，发表偏倚是通过对已发表作品中报告的指标进行统计分析来检测的。因此，大多数已知的学术文献中发表偏见的“例子”都是仅来自已发表作品的发表偏见的推断。

示例：基于一个真实的实验，为了保护有罪的人，省略了人员和组织的名称（以及无关紧要的细节）。

在一项比较两种制造方法（1 和 2）的研究中，项目，直到失败。（观察值越大越好。）结果和样本的汇总统计如下： $n=100$ x1x2

summary(x1); length(x1);  sd(x1)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.1099  2.8264  7.0881 10.0057 12.8520 46.9993 
[1] 100
[1] 10.35345

summary(x2); length(x2);  sd(x2)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.1196  3.2247  8.0975 11.1469 15.9245 56.6384 
[1] 100
[1] 10.54756

boxplot(x1, x2, col="skyblue2", horizontal=T, notch=T)

每个人都最喜欢的是方法 2（尽管成本更高），而且平均值更大。但方框中重叠的缺口表明没有显着差异。此外，由于样本量大而“肯定没问题”的合并 2 样本 t.test没有发现显着差异。[这是在 Welch t 检验流行之前。] 实验者希望有证据表明方法 2 明显更好。

t.test(x1,x2, var.eq=T)

          Two Sample t-test

data:  x1 and x2
t = -0.77212, df = 198, p-value = 0.441
alternative hypothesis: 
 true difference in means is not equal to 0
95 percent confidence interval:
 -4.055797  1.773441
sample estimates:
mean of x mean of y 
 10.00571  11.14689

共识是“异常值扰乱了 t 检验” 并且应该被删除。[似乎没有人注意到新的异常值随着原始异常值的删除而出现了。]

min(boxplot.stats(x1)$out)
[1] 28.41372
y1 = x1[x1 < 28.4]
min(boxplot.stats(x2)$out)
[1] 36.73661
y2 = x2[x2 < 36.7]

boxplot(y1,y2, col="skyblue2", horizontal=T, notch=T)

现在有了“清理数据”y1和y2，我们的 t 检验显着（刚好）低于 5% 的水平。非常高兴，最喜欢的赢了。

t.test(y1, y2, var.eq=T)

        Two Sample t-test

data:  y1 and y2
t = -1.9863, df = 186, p-value = 0.04847
alternative hypothesis: 
 true difference in means is not equal to 0
95 percent confidence interval:
  -4.37097702 -0.01493265
sample estimates:
mean of x mean of y 
 7.660631  9.853586

为了“确认他们做对了”，单方面（“因为我们已经知道哪种方法最好”）两样本 Wilcoxon 检验发现了显着差异（非常接近 5% 的水平，但“非参数检验不如强大的”）：

wilcox.test(y1, y2, alt="less")$p.val
[1] 0.05310917

几年后，当经济紧缩迫使转向更便宜的方法 1 时，很明显方法之间没有实际差异。为了与这一发现保持一致，我对 R 中当前示例的数据进行了采样，如下所示：

set.seed(2021)
x1 = rexp(100, .1)
x2 = rexp(100, .1)

注意：您可以谷歌并找到一个精确的 F 检验来比较指数样本，它没有发现差异，但当时没有人想到使用它。

其它你可能感兴趣的问题

上一篇这是p-hacking吗？下一篇为什么 AIC 没有报告置信区间？