研究员 1 运行 1000 个回归,研究员 2 只运行 1 个,都得到相同的结果——他们应该做出不同的推论吗?

机器算法验证 贝叶斯 多重回归 多重比较 推理 数理统计
2022-03-02 22:32:51

想象一下,一位研究人员正在探索一个数据集并运行 1000 个不同的回归,他发现它们之间有一个有趣的关系。

现在想象另一位具有相同数据的研究人员 只运行 1 个回归,结果发现与另一位研究人员进行 1000 个回归找到的结果相同。研究员 2 不认识研究员 1。

研究员 1 是否应该做出与研究员 2 不同的推论?为什么?例如,研究员 1 是否应该执行多重比较校正,但研究员 2 不应该?

如果研究员 2 首先向您展示他的单一回归,您会做出什么推论?如果在那个研究人员 1 向你展示他的结果之后,你应该改变你的推论吗?如果是这样,它为什么重要?

PS 1:如果谈论假设的研究人员使问题变得抽象,请考虑一下:假设使用可用的最佳方法为您的论文只运行了一个回归。然后另一位研究人员用相同的数据探索了 1000 个不同的回归,直到他找到了与您运行的完全相同的回归你们两个应该做出不同的推论吗?两个案件的证据是否相同?如果您知道其他研究人员的结果,您是否应该改变您的推论?公众应该如何评估这两项研究的证据?

PS 2:如果可能,请尽量具体并提供数学/理论证明!

3个回答

统计解释远不如您所要求的数学处理清楚。

数学是关于明确定义的问题。例如掷一个完美的骰子,或从瓮中抽球。

统计学是应用数学,其中数学提供了指导,但不是(确切的)解决方案。

在这种情况下,情况显然起着重要作用。如果我们执行回归然后计算(数学)一些 p 值来表达强度,那么 p 值的解释(统计)和值是什么?

  • 在研究人员 1 执行的 1000 次回归的情况下,结果要弱得多,因为这种情况发生在我们没有真正的线索并且只是在探索数据时。p值只是表明可能存在某些东西。

    因此,p 值在研究人员 1 执行的回归中显然不那么有价值。如果研究人员 1 或使用研究人员 1 的结果的人想对回归做一些事情,那么 p 值需要被校正。(如果您认为研究人员 1 和研究人员 2 之间的差异不够,请考虑研究人员 1 可以通过多种方式来纠正多重比较的 p 值)

  • 在研究人员 2 执行的单一回归的情况下,结果是更有力的证据。但那是因为回归不是独立存在的。我们必须包括研究人员 2 只进行一次回归的原因。这可能是因为他有充分的(额外的)理由相信单一回归是一个很好的数据模型。

  • 研究人员 1 和 2 执行的回归设置有很大不同,对于同一个问题,您通常不会同时遇到两者。如果是这种情况,那么要么

    • 研究员2很幸运

      这种情况并不少见,我们在解读文献时应该更好地纠正这一点,同时我们应该改进研究全貌的出版。如果有 1000 名像研究员 2 这样的研究人员,而我们只会看到其中一个人发表了成功,那么由于我们没有看到其他 999 名研究人员的失败,我们可能会错误地认为我们没有像研究员 1 这样的案例

    • 研究人员 1 并不那么聪明,他做了非常多余的搜索来寻找一些回归,而他可能从一开始就知道它应该是那个单一的,他本可以进行更强大的测试。

      对于比研究人员 1 更聪明的局外人(从一开始就不关心额外的 999 回归)并阅读了这项工作,他们可能会更加强调结果的重要性,但仍然不如他为研究人员 2 的结果。

      虽然研究人员 1 在校正 999 个多余的附加回归时可能过于保守,但我们不能忽视这样一个事实,即研究是在知识真空中完成的,并且找到类型 1 的幸运研究员比类型 1 的幸运得多2.

一个有趣的相关故事:在天文学中,当他们计划使用更好的仪器来更高精度地测量宇宙背景时,有研究人员认为只发布一半的数据。这是因为只有一个镜头可以收集数据。一旦数十名不同的研究人员执行了所有回归(并且由于理论家令人难以置信的变化和创造力,肯定有一些适合数据中每一个可能的、随机的、颠簸的),就不可能执行新的实验来验证(也就是说,除非你能够生成一个全新的宇宙)。

这是我对您问题的“贝叶斯”倾向。我认为您已经描述了这样一种情况,即具有不同先验信息的两个人在给定相同的数据集时应该得到不同的答案/结论。一个更直接/极端的例子是假设我们有一个“研究员 1b”,他碰巧从任何假设中猜测回归模型参数和结论。运行回归在概念上与猜测相距不远。1000

我认为正在发生的事情......我们从上述问题中了解了研究人员的先验信息?有一个平坦的先验 有一个尖锐的先验(假设是他们都适合的模型)P(Mk|I1)=11000P(M1|I2)=1M1

这显然是一种简化,但你可以在这里看到,我们已经在没有任何数据的情况下更加重视研究人员 2 的推论。但是你看,一旦他们都考虑了数据,研究人员 1 对的后验概率会增加... (...我们知道这一点是因为它“更好" 比其他型号...)。研究员2的后脑不能再集中,已经等于了。我们不知道有多少数据支持而不是替代方案。我们也不知道不同的模型如何改变研究人员 1 的实质性结论。例如,假设所有M1P(M1|DI)>>P(M1|I)9991M11000模型包含一个通用项,并且该变量的所有回归参数都显着大于(例如)。那么即使许多模型都适合,也没有问题得出显着的积极影响。10000pvalue<108

你也没有说数据集有多大,这很重要!如果您谈论的是具有观察值和协变量/预测变量/自变量的数据集,那么研究人员 1 可能仍然对模型非常不确定。但是,如果研究人员 1 使用个观测值,则可以最终确定模型。100102,000,000

两个人从不同的信息开始,看到相同的数据后继续有不同的结论,根本没有错。但是......如果它们的“模型空间”重叠并且数据支持这个“重叠区域”,那么看到相同的数据将使它们更接近。

小故事:我们没有足够的信息来回答您的问题,因为我们对使用的方法或收集的数据一无所知。

长答案......这里真正的问题是每个研究人员是否在做:

  • 严谨的科学
  • 严谨的伪科学
  • 数据探索
  • 数据挖掘或 p-hacking

他们的方法将决定其结果解释的强度。这是因为有些方法不如其他方法健全。

在严谨的科学中,我们提出一个假设,识别混杂变量,为我们假设之外的变量开发控制,计划测试方法,计划我们的分析方法,执行测试/收集数据,然后分析数据。(请注意,分析方法是在测试发生之前计划好的)。这是最严格的,因为我们必须接受与假设不符的数据和分析。事后改变方法以获得有趣的东西是不可接受的。研究结果中的任何新假设都必须再次经历相同的过程。

在伪科学中,我们经常获取已经收集到的数据。这在道德上更难使用,因为更容易在结果中添加偏见。但是,伦理分析师仍然可以遵循科学方法。但是,设置适当的控制可能很困难,需要研究和注意。

对数据的探索不是基于科学的。没有具体的假设。没有对混杂因素的先验评估。此外,很难返回并使用相同的数据重新进行分析,因为结果可能会受到先前知识或建模的污染,并且没有新数据可用于验证。建议进行严格的科学实验,以阐明从探索性分析中发现的可能关系。

数据挖掘或 P-hacking 是“分析师”执行多项测试,希望得到意外或未知的答案,或操纵数据以获得结果。结果可能是简单的巧合,可能是混杂变量的结果,或者可能没有有意义的影响大小或功效。

每个问题都有一些补救措施,但必须仔细评估这些补救措施。