我经常看到人们首先进行线性回归,在他们没有找到显着的结果之后,他们继续进行 t 检验,仅比较 n 个得分最高和最低的科目。
这个程序有效吗?在我看来,基于任意选择的阈值对人进行分组并通过离散化连续变量来丢弃信息应该是一个问题,另一方面,它是有效的,因为它可以找到线性回归未能做到的显着差异.
编辑: 我知道一个 p-hacking 问题,这不是我真正感兴趣的。即使它是预注册分析协议的一部分,这会是一个问题吗?因此不涉及 p-hacking。
如果没有数据被丢弃,但线性回归没有显示出显着的结果,但基于预先指定的组的 t 检验有结果,那该怎么办?例如,基于 BMI 阈值的肥胖与非肥胖人群是显着的,但将 BMI 作为回归中的连续预测因子则不是。如果存在信息丢失的问题,为什么信息越少的测试结果越好?
编辑 2,样条曲线: 据我了解,样条曲线是处理非线性关系的好方法,它会使线性回归的性能变差。但是,如果关系是线性的,但效应量非常低,所以整体回归不显着,但最高/最低得分科目的 t 检验是?样条曲线会发现线性回归没有的差异吗?