测试模型假设是否被视为 p-hacking/钓鱼?

机器算法验证 假设检验 模型选择 多重比较 假设 哲学的
2022-03-22 00:48:17

此处此处解释的“P-hacking”、“钓鱼”和“分叉路径花园”描述了一种类似于探索性数据分析的研究风格,这种风格会产生有偏差的估计。

是否在用于拟合模型的同一数据集上使用统计测试来测试模型假设(例如回归中的正态性、同方差性)被认为是“p-hacking”或“分支路径花园”问题?

这些测试的结果肯定会影响研究人员最终选择适合的模型。

2个回答

我不认为检查任何模型的假设都符合 p-hacking /钓鱼的条件。在第一篇文章中,作者谈到了对数据集反复执行分析并只报告最佳结果的分析师。换句话说,他们故意描绘了数据中正在发生的事情的有偏见的画面。

测试回归或任何模型的假设是强制性的。不强制的是从数据中反复重新采样以确定可能的最佳结果。假设研究人员有足够大的样本可供提取,他们有时会一遍又一遍地重新采样……一遍又一遍地进行假设检验……直到他们得到他们想要的结果。因此,p-hacking。他们通过寻找所需的结果来破解 p 值,并且在找到它之前不会退出(钓鱼)。因此,即使在 100 个假设检验中,他们仅获得 1 个具有显着结果的结果,他们也会报告属于该特定检验的 p 值并忽略所有其他检验。

这有意义吗?检查模型假设时,您要确保模型适合您拥有的数据。通过 p-hacking/钓鱼,您可以无休止地搜索数据/操纵研究以达到您想要的结果。

至于多重比较的目的,如果你不断地在泥泞中运行一个模型,试图找到一种方法来使其无效(或验证它),那么最终你会找到一种方法。这是钓鱼。如果你想验证一个模型,那么你会找到一种方法。如果您想使其无效,那么您会找到一种方法。关键是要有开放的心态,找出真相——而不仅仅是看到你想看到的。

从某种意义上说,测试是否违反假设的做法最初是为了确保进行适当的分析,但事实证明,它确实有一些相同的后果(例如,参见这个问题) . 但它的形式比更极端的 p-hacking 变体更温和,这些变体专门针对以某种方式使感兴趣的影响的 p 值低于 0.05。除非您开始结合多个有问题的实践(例如检查正态性、检查同方差性、检查“应该”在模型中的协变量、检查协变量的线性、检查交互作用等)。我不确定是否有人研究过多少会使最终分析无效。

当然,另一个问题是正常性测试通常没有意义(参见例如this讨论)。对于小样本量,您无法可靠地拾取真正违反假设的大量偏差,而对于大样本量,例如 t 检验对偏差非常稳健,但正态性检验将开始检测无关紧要的微小偏差。最好(尽可能)根据以前的数据或主题知识指定适当的模型。如果不可能,最好使用对违反分布假设更稳健或没有/更少的方法。