在多变量回归框架中识别曲线效应的首选方法

机器算法验证 造型 回归 方法
2022-03-31 22:47:48

假设以前的一些发现确定了 X 对 Y 的曲线影响(特别是 X 对 Y 有积极影响,而 X^2 有消极影响)。您想查看对于完全不同的样本是否同样适用(尽管研究、构造/测量之间的其他一切都完全相同)。之前的研究和我的研究都不是实验性的(所以我不是在操纵 X,只是观察它)。没有明确的理论原因说明为什么会出现曲线效应。

我将举一些例子说明我目前将如何查看这是否属实,但如果我的任何建议不恰当,当然如果他们的是其他选择。

例子:

1) 简单地检查双变量散点图并将某种类型的平滑线拟合到 X 的箱(例如黄土)上的 Y 的平均值。尽管混淆可能是一个问题,但如果存在曲线效应,它们可能会成为其分布的一些证据。

2) 检查偏回归图或其他可视化技术,以确定 X 对 Y 的影响,而与其他混杂变量无关。

3) 使用某种类型的模型选择标准(例如 BIC),并确定包含 X^2 的模型是否优于不包含 X^2 的模型

4) 包含一个带有 X^2 的模型,看看 X^2 是否具有统计显着的回归系数。

就像我说的,也欢迎任何其他建议。

编辑:在这种情况下,我主要关心的是确定 X 对 Y 的影响是否以与先前研究类似的方式最好地表示。虽然它们可能是其他研究之间比较有趣的点(比如 X 对 Y 的影响的大小),但这不是我主要关心的问题。

2个回答

听起来您好像对形式推理感兴趣,并且对于该方法 4 是最好的。将 X^2 添加到包含您希望控制的项的模型中,并进行测试以评估给定模型中项的二次项的证据强度。但是请注意,“缺乏证据并不是不存在的证据”,并且统计能力将发挥作用(如果您未能拒绝或 CI 包含零,这很有趣)。当然,您还需要在得出结论之前对模型假设进行诊断。

方法 1 和 2 是极好的探索性工具,我鼓励以尽可能多的有意义的方式探索这种关系(因为你事先知道你将进行什么样的正式测试——对二次项的测试——这不会导致数据驱动的假设检验)。其他探索方法包括绘制拟合的 LOESS 平滑器或样条曲线到(可能是部分的)关系,拟合数据子集内的平滑器或参数拟合(例如使用条件图),具有拟合表面的 3d 散点图(特别是如果您包括连续交互作用)等。这些图不仅可以帮助您更好地理解数据,而且还可以用作不太正式的二次方案例的一部分(请记住,人类擅长发现噪声趋势)。

我不确定您在 3 中指的是什么模型选择方法,但通常自动化模型选择和测试不会混合使用。如果您指的是使用信息标准(AICc、BIC、...),请注意这些背后的理论是基于预测而不是测试。因此,数字 4 是检验二次方最严格的方法。

最后,关于术语的 2 条评论:

  • “多变量”模型是那些响应是矩阵的模型,而“多变量”模型是那些具有向量响应和 RHS 上的多个项的模型。

  • 部分残差图不同于部分回归图。

再次感谢您的回复,未来的任何其他回复将不胜感激。我认为我个人更喜欢使用探索性工具来识别关系,特别是因为最初的研究人员没有给出任何理论上存在曲线关系的真正原因。尽管探索会确定关系是否未被正确识别(例如,它是否应该是三次多项式项而不是平方项),但这似乎不太可能,因为它没有理由一开始就有曲线。

附图是他们的几个最终模型的图,我已经绘制了 Y 的期望值,给出了他们报告的 X 和 X^2 系数,保持模型中的其他所有内容不变。如果他们的结果具有代表性,我应该在控制其他混杂因素的样本中观察到类似的发现。仅仅绘制他们的发现也很有启发性,因为我看到平方项在几个模型中占主导地位,因此从所有实际目的来看,它具有相当快地达到实际 Y 值底部的负关系。

替代文字