解释高度相关变量的交互项

机器算法验证 回归 相互作用 多重共线性 营销 解释
2022-04-01 04:31:21

今天在一次会议上,有人对我们每年运行的营销组合模型(线性回归)发表了以下评论。

  • 我们应该考虑两个营销变量的高度共线性(我们模型中包含的两个营销变量)
  • 我们应该始终在模型中包含这两个营销变量的交互作用,以更好地解释协同效应

我觉得这两个陈述放在一起有问题。让我简化一下问题:

让我们将表示为两个营销变量,我们想估计它们对总销售额的贡献。然后我们运行一个线性模型 我们发现彼此之间高度相关。理论上,由于共线性,这应该会影响系数和单个 t 统计量。X1X2Y

Y=β0+β1X1+β2X2
X1X2

现在,如果我们做模型,例如 在完美共线性的极端情况下,我会假设交互项它与相同或与依赖的二次关系变量因此,可能存在的系数分别不显着但显着(显着意味着低 t 统计量)的情况。如果这不是真的,请纠正我。

Y=β0+β1X1+β2X2+β3X1X2
X1X2X12YX1X2X1X2

现在我的问题是。从解释的角度来看,最后一个模型真的有意义吗?

即使没有完美的共线性问题,我也不知道我们是否可以推断出交互实际上是在测量两个变量的线性组合。这意味着当我同时执行这两种营销策略时,我并没有得到简单的协同效应。相反,我实际上只是在捕捉其中一个变量的二次效应。从这个意义上说,我无法真正解释交互术语。另外我不太确定如何为模型提供新信息,因为它们解释的方差应该几乎相同。X1X2

1个回答

我同意在完美共线性的情况下,交互作用只是平方,并且可能产生不显着但显着交互作用的主效应。

如果您具有完美的共线性,那么一种方法是向其中一个变量添加一些小的随机误差,或者您可以将它们组合起来,如果这在您的上下文中有意义的话。

即使没有完美的共线性问题,我也不知道我们是否可以推断出交互实际上是在测量两个变量的线性组合。

它是,这正是它所做的。