机器算法验证 - 解释高度相关变量的交互项 - 吾爱随笔录

今天在一次会议上，有人对我们每年运行的营销组合模型（线性回归）发表了以下评论。

我们应该考虑两个营销变量的高度共线性（我们模型中包含的两个营销变量）
我们应该始终在模型中包含这两个营销变量的交互作用，以更好地解释协同效应

我觉得这两个陈述放在一起有问题。让我简化一下问题：

让我们将和表示为两个营销变量，我们想估计它们对总销售额的贡献。然后我们运行一个线性模型我们发现和彼此之间高度相关。理论上，由于共线性，这应该会影响系数和单个 t 统计量。 $X_1$ $X_2$ $Y$

Y = β_{0} + β_{1} X_{1} + β_{2} X_{2}

$Y = \beta_0 + \beta_1X_1 + \beta_2X_2$

X_{1}

$X_1$

X_{2}

$X_2$

现在，如果我们做模型，例如在完美共线性的极端情况下，我会假设交互项它与相同或与依赖的二次关系变量。因此，可能存在和的系数分别不显着但显着（显着意味着低 t 统计量）的情况。如果这不是真的，请纠正我。

Y = β_{0} + β_{1} X_{1} + β_{2} X_{2} + β_{3} X_{1} X_{2}

$Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + \beta_3X_1 X_2$

X_{1} X_{2}

$X_1 X_2$

X_{1}^{2}

$X_1^2$

Y

$Y$

X_{1}

$X_1$

X_{2}

$X_2$

X_{1} X_{2}

$X_1 X_2$

现在我的问题是。从解释的角度来看，最后一个模型真的有意义吗？

即使没有完美的共线性问题，我也不知道我们是否可以推断出交互实际上是在测量两个变量的线性组合。这意味着当我同时执行这两种营销策略时，我并没有得到简单的协同效应。相反，我实际上只是在捕捉其中一个变量的二次效应。从这个意义上说，我无法真正解释交互术语。另外我不太确定如何为模型提供新信息，因为它们解释的方差应该几乎相同。 $X_1 X_2$