基于事后分析的出版工作有问题吗?

机器算法验证 假设检验 事后 方法 心理学 发表偏倚
2022-03-14 01:49:54

如今,在科学领域,越来越多的高层人士反对进行事后分析,他们建议不要收集大量数据,而是在收集数据后编造故事并报告重要发现。在我所在领域的心理学中,最近一些期刊接受了研究提案的预注册,并且这些期刊允许无论结果如何都可以发表这些研究(参见http://www.sciencemag.org/careers/2015/12/register -your-study-new-publication-option )

是的,我理解人们对如何完成科学的概念化是:

  1. 我有一些相互竞争的(可能是相互排斥的)假设
  2. 我设计了一项研究(也许是一个实验)并收集数据
  3. 我查看数据,看看它是否支持我的假设
  4. 我发表我的发现

然而,某些人的“事后”研究方式真的有问题吗?如果现实中存在隐藏模式,而研究人员目前无法真正掌握它,那么进行探索性研究并收集大量数据并以事后的方式检查它们之间的关系有什么问题?为什么编造一个故事来掩盖一项研究是一个问题?

3个回答

显然,事后分析和解释性研究为理解和讨论现象提供了有用的文章:它们和发表它们没有任何问题。这样的设计成为一种不好的做法的时刻是当它们被用于得出只有适当的专门研究才能支持的结论时。在解释事后分析时必须小心,对于数据分析师以及解释报告结果的人。

实际上,在大多数情况下,对数据的事后探索让我们完全沉浸在“分岔路的花园”中,几乎不可能进行适当的假设检验(至少不会大幅增加 II 型错误),因为那时会有大量选择以数据为条件(例如要排除哪些变量,如何对数据进行分组,要测试什么关系?)。确实,在大型数据集中,您可以以某种方式查看数据(这里我的意思是具有良好的分组、阈值、拟合函数..),从而出现引人注目的模式。数据中的模式并不意味着现象中的模式,只有适当的复制才能证明结论是正确的(只要假设检验可以证明结论......)。

编造一个故事会很危险,但就您的一般观点而言,这取决于。这显然会使您使用的任何统计方法变得复杂,但在许多情况下,不提供新的可信信息将是一种浪费。我希望您的发现会受到更大的怀疑,但很少有事情是非黑即白的。

有一个名为“贝叶斯定理”的公式表示,如果您开始将概率 P1 分配给假设 H,并且您看到证据 E,那么您应该将概率调整为:

P2 = P1*(在 H 为真的情况下看到 E 的概率)/(看到 E 的概率)。

因此,如果某些东西通常不太可能看到,但如果假设为真,则很有可能,那么看到它应该会显着增加你对假设的信心。但是,如果无论假设是否正确,都可能看到某些东西,那么它不应该增加你的信心。

统计分析可以告诉您在给定零假设的情况下,特定研究得出结果的概率是多少,但这与被看到的概率不同。不幸的是,第一个数字被错误地视为第二个。

这种差异是蒙蒂霍尔悖论的基础:如果你选择了门 A 并且显示门 B 有一只山羊,那么无论门 A 是否有车,“门 B 有一只山羊”的证据都是同样可能的,所以它不应该让你切换。但是,如果 A 门有汽车,“我看到B 门有一只山羊”的可能性较小,因为在这种情况下,蒙蒂霍尔只有 50% 的机会向您展示 B 门。因此,在知道 B 门有一只山羊的同时不应该让你切换,因为你知道 B 门有一只山羊应该

也就是说,如果 Monty Hall 总是向您展示 B 门,无论它是否有山羊,那么看到它是山羊不应该让您切换。但是,如果 Monty Hall 在它有汽车时从不向您显示 B 门,在 C 门有山羊时总是向您显示 B 门,并且在 B 门和 C 门都有山羊时随机选择,然后看到 B 门有山羊应该让你切换。

同样,如果有人向您展示了一项研究的结果,并且您可以自信地说“无论它是什么,我都会看到这个统计数据”,那么您可以从表面上接受简单的概率计算。但是如果你看到一个统计数据,并且你意识到如果这个统计数据不是那么令人印象深刻,可能就不会被提及,那么现在你必须针对这种偏差进行调整。

因此,如果您有一个严格的、预先确定的程序来了解结果,并且看到结果的概率不依赖于该研究的结果,那么您不必担心“E 的概率”之间的区别”和“知道 E 的概率”。但是一旦概率发散,现在你有一个额外的参数需要估计,你可能对这个参数应该是什么只有一个模糊的概念,而且很容易忽略这个问题。