想象一下,一位研究人员正在探索一个数据集并运行 1000 个不同的回归,他发现它们之间有一个有趣的关系。
现在想象另一位具有相同数据的研究人员 只运行 1 个回归,结果发现与另一位研究人员进行 1000 个回归找到的结果相同。研究员 2 不认识研究员 1。
研究员 1 是否应该做出与研究员 2 不同的推论?为什么?例如,研究员 1 是否应该执行多重比较校正,但研究员 2 不应该?
如果研究员 2 首先向您展示他的单一回归,您会做出什么推论?如果在那个研究人员 1 向你展示他的结果之后,你应该改变你的推论吗?如果是这样,它为什么重要?
PS 1:如果谈论假设的研究人员使问题变得抽象,请考虑一下:假设您使用可用的最佳方法为您的论文只运行了一个回归。然后另一位研究人员用相同的数据探索了 1000 个不同的回归,直到他找到了与您运行的完全相同的回归。你们两个应该做出不同的推论吗?两个案件的证据是否相同?如果您知道其他研究人员的结果,您是否应该改变您的推论?公众应该如何评估这两项研究的证据?
PS 2:如果可能,请尽量具体并提供数学/理论证明!