如何确定哪些预测变量应包含在多元回归中?

机器算法验证 相关性 多重回归
2022-04-17 12:23:07

我不是统计学家,而是医学研究人员,我有 5 个结果,我想使用多元回归确定每个结果的独立预测因子。我有许多潜在变量可以作为自变量 (IV) 包含在多元回归中。

一位同事建议在所有 IV 和 DV 之间运行 Spearman 相关矩阵,然后在多元回归中仅包括显着相关的 IV。

问题

  • 仅包括与结果具有显着双变量 spearman 相关性的显着预测因子是否合适?
  • 或者,在多元回归中确定包含预测变量的好方法是什么?
4个回答

该模型应由主题专业知识制定。使用数据告诉您使用哪些数据并不是一个好主意。数据信息不够丰富,无法可靠地做到这一点。如果每个变量有太多事件(一个经验法则是模型中每个参数至少有 15 个受试者),强烈考虑对数据缩减方法视而不见Y. 这些包括主成分、变量聚类和冗余分析。示例在我的课程笔记中,网址为http://biostat.mc.vanderbilt.edu/CourseBios330

有很多方法可用于变量选择。LASSO 是更好的数据驱动变量选择模型之一。不要,无论你做什么,逐步使用前进。你会很高兴你没有:

http://www.nesug.org/proceedings/nesug07/sa/sa07.pdf

不要让分析驱动理论可能很重要。哪些变量是最好的预测变量,应该基于以前的研究,或者至少基于主题专家意见的共识。一些决定将取决于您的样本量有多大。如果大小足够大,您可以选取一个子组并检查自变量和因变量之间的关联。当您运行多元回归时,您确实冒着在分析的每个步骤中出错的风险,因此重要的是不要只将您拥有的所有东西都投入到回归中。如果您能够使用子组,则可以验证您认为您在不同组中找到的内容以进行确认。你能告诉我们更多关于你的样品的信息吗?

在进行回归分析时,检查自变量之间的相关性有助于避免多重共线性问题。如果您有多个高度相关的 IV,这可能表明不同的 IV 解释了因变量或结果中相同的方差部分,这可能会使估计的相关系数产生偏差。这个问题的一个迹象是你可以有一个非常高的 R^2 值,而有效的 IV 非常少。换句话说,在回归模型中具有高度相关的 IV 可以掩盖它们与 DV 的实际关系。多重共线性问题有几种补救方法,例如排除一个(或多个)相关的 IV,组合 IV(加法方法)。获取和检查每个预测变量的方差膨胀因子 (VIF) 值很有用,

在构建回归模型时,在运行包含所有相关 IV 的回归模型后,可以从模型中排除不显着的 IV,但关于是否从分析中排除变量的决定通常不基于相关矩阵。