如何决定在多元回归模型中包含哪些交互项?

机器算法验证 r 多重回归 模型选择 逐步回归
2022-02-28 09:08:10

我正在尝试使用 R 构建多元回归模型。我有许多预测变量。我有一些基本的领域知识,我正在尝试构建模型。首先,我包括了一些基于领域知识的预测变量和响应变量的高相关系数,同时由于多重共线性而排除了一些其他预测变量。我想弄清楚是否应该包含一些交互术语。但是,由于大量的预测变量,我很难弄清楚我应该在模型中包含哪些所有交互项。根据我在此站点上阅读的有关自动模型选择的内容(感谢@gung 等人),我试图避免使用它。

1个回答

我认为您可以根据您的领域知识处理其中一些问题。11,000 条记录中的 21 个预测变量并不多,如果您的结果变量是一些连续测量,那么您面临的问题是要包括哪些预测变量和交互以及如何处理共线性。

为了构建模型,您可能不想忽略 21 个原始预测变量中的任何一个。当您忽略 2 个高度相关的预测变量中的 1 个时,您将丢弃您忽略的那个提供的信息,并冒着您的结果与您正在分析的特定样本中这些相关变量的特性过于紧密相关的风险。此外,不要依赖自变量与因变量的相关性来选择要包含的预测变量。保持一些预测变量与因变量的相关性较差可能有助于提高其他预测变量的性能,即使在没有交互作用的情况下也是如此。

对于交互,请考虑根据您的领域知识添加您认为可能很重要的交互。这可能比 21 个预测变量之间的 420 个可能的双向交互要少得多,因此您仍然会有相当少量的自变量。您甚至可以考虑根本不包括任何交互,并查看 21 个预测变量本身是否足以满足您的目的。有时最好从简单开始,只在需要时增加复杂性。

处理共线性的一种方法是基于领域知识:将相关预测变量组合成一个预测变量,该预测变量捕获这些相关预测变量所代表的基本潜在现象。这似乎与您使用模型进行推理的目标一致。如果您可以根据领域知识以一种可防御的方式组合相关预测变量,您可能会减少模型中预测变量的数量,从而使推理更容易。

或者,要处理共线性,您可以使用岭回归之类的方法,该方法倾向于将共线性预测变量一起处理。我的印象是岭回归更常用于预测而不是推理模型,但它确实具有以合理方式处理共线性的优势。它返回所有预测变量的系数,这取决于您的观点,这是一个优势还是一个劣势。有些人可能更喜欢 LASSO 进行推理,因为它只保留了预测变量的一个子集,但它在共线预测变量中的特定选择可能取决于样本,您在解释结果时必须考虑这一点。

我的猜测是,比处理 21 个预测变量更大的问题是为您的变量找到适当的缩放变换,以便它们在线性模型的近似中相当好地工作。