只对最极端的科目而不是每个人进行测试是否有效?

机器算法验证 回归 t检验
2022-04-03 03:30:29

我经常看到人们首先进行线性回归,在他们没有找到显着的结果之后,他们继续进行 t 检验,仅比较 n 个得分最高和最低的科目。

这个程序有效吗?在我看来,基于任意选择的阈值对人进行分组并通过离散化连续变量来丢弃信息应该是一个问题,另一方面,它是有效的,因为它可以找到线性回归未能做到的显着差异.

编辑: 我知道一个 p-hacking 问题,这不是我真正感兴趣的。即使它是预注册分析协议的一部分,这会是一个问题吗?因此不涉及 p-hacking。

如果没有数据被丢弃,但线性回归没有显示出显着的结果,但基于预先指定的组的 t 检验有结果,那该怎么办?例如,基于 BMI 阈值的肥胖与非肥胖人群是显着的,但将 BMI 作为回归中的连续预测因子则不是。如果存在信息丢失的问题,为什么信息越少的测试结果越好?

编辑 2,样条曲线: 据我了解,样条曲线是处理非线性关系的好方法,它会使线性回归的性能变差。但是,如果关系是线性的,但效应量非常低,所以整体回归不显着,但最高/最低得分科目的 t 检验是?样条曲线会发现线性回归没有的差异吗?

3个回答

由于您在评论中提出了预注册程序,我想我会发布一个与之相关的简短讨论。让我们想象一下,您可以避免在另一个答案中链接的分岔路花园中的所有陷阱。

因此,我们正处于选择使用哪些程序的阶段。在接下来的内容中,我将做出一些简化的假设(尽管一般来说,结论会更广泛)。首先,为简单起见,我将考虑仅限于单个预测变量(自变量)的情况。让我们考虑两种可能的情况:

  1. 在这种情况下,您可以选择您的设计——这就是预测变量(自变量)将采用的值。如果您在获取数据之前认为关系是弱的(因此功率很重要)并且是线性的,那么在选择如何放置自变量(预测器)所取的值之后,您可以选择线性回归和 t 检验。

    如果这些值是基于将数据放入两个极端组中,从而为两组 t 检验提供最佳可能功率,则将处于某个极端可能的低值和极端可能的高值之间没有任何东西(并且没有能力评估该线性假设)。测试之间的最终选择非常简单——两组 t 检验和回归斜率测试完全相同——它们将具有相同的 t 统计量。因此,除了回归之外,什么都得不到。xxLxU

  2. 在第二种情况下,您不会选择预测器采用哪些值,或者由于其他原因,您无法将它们放置在最大化 t 检验功效的方式中。如果您在获得数据之前认为关系是弱且线性的()并且通常的回归假设成立,那么线性回归和基于将数据分成三个的 t 检验之间的选择组(不一定全部大小相同,但在查看数据之前指定了它们的大小),省略中间组并对外部组进行 t 检验很简单:线性回归具有更大的功效。y=α+βx+ϵ

    让我们调查一下为什么这是显而易见的。请注意,如果我们有值,我们可以在线性假设下计算预期差异,而不是对两组均值 (它是的某个倍数(倍数取决于我们拥有结果,我们可以缩放差异(作为两组,即回归线的总体斜率。这根本不会改变 t 比率,因为它会将 t 统计量的分子和分母都缩放相同的比例因子。y¯Uy¯Lxβxxβ

    [为简单起见,我假设的位置是通过设计对称的,或者如果是从某个对称分布中随机抽取的,但在抽取样本之前我们不会知道 x 值。在这种情况下,最好两组包含相同数量的观察值。我还将假设是偶数。两者都不是必需的,但讨论被简化了。]xxn

    所以现在我们正在考虑两个不同的估计量,都是线性的。一个是通常的最小二乘估计(),另一个在两组中的每一个中ββ^i

    [如果将IV统一放置在某个范围内,那么选择每组包含多少分是一个老问题;事实证明它大约是如果它们是正常分布的,它会更小——我相信大约 27%。如果设计点大多接近末端,它会更高,直到在极端情况下,我们又回到上面的案例 1,每组有 50%。功率峰值非常平坦,因此您使用哪个值并不重要。]13

    我们可以立即应用高斯-马尔可夫定理,并且知道线性回归将优于两组之一——您将有两个具有相同预期值的估计量,但线性回归一个将具有较小的预期标准误差(因此有更多的权力)。

    [在比例接近最佳比例的情况下,功率非常接近线性回归的功率,但没有那么接近以至于你认为它基本上是一个折腾。]

如果您看到有人选择走 t 检验路线并获得了完全线性回归无法获得的显着结果,那么要么他们对他们的数据结果非常幸运,要么您不得不怀疑是否毕竟程序真的是“完全预注册”。

还有另一种情况在一定程度上改变了这个讨论 - 变量错误情况(观察到有错误,有时称为模型 II 回归)。在这种情况下,普通回归既不是最优的也不是无偏的,不应使用。不过,这将是一个不同问题的比较。x

这是无效的。人们只进行 t 检验,因为回归未能产生显着的结果。Andrew Gelman 将这些选择称为“分叉路径的花园”,如果研究人员对数据做足够多的事情以寻找p < .05,则 I 类错误率可能会大大增加。

对连续变量进行二分法可能不是一个好主意,但这听起来不像。似乎研究人员只使用将证实他们的假设的主题。他们不是先验地决定选择这些人,而是在查看数据会给他们带来什么后事后决定。这是 p-hacking,必须避免。

如果可以的话,我会发表评论,但您可能会发现分解连续预测变量有什么好处?有用——尤其是斯科蒂的回答。

还有这个http://biostat.mc.vanderbilt.edu/wiki/Main/CatContinuous列出了由对连续变量进行分类引起的问题。

对我来说,您所描述的内容听起来像是“p-hacking”,并导致信息丢失。