我应该如何在连续和分类预测器之间实现这种交互?

机器算法验证 回归 分类数据 相互作用 定心
2022-03-31 04:32:27

我有一个连续的结果变量。我知道如果我有一个二元预测器、一个连续预测器和一个交互,那么模型看起来像这样:

yi=β0+β1x1+β2x2+β3x1x2+εi

但是,我正在考虑将二进制预测器改为分类预测器,具有三个类别。

  1. 一旦我做出改变,模型方程会是什么样子?我知道我需要有两个虚拟变量,但我无法概念化在这种情况下交互会是什么样子。

  2. 我是使用 0,1 来编码二进制预测器,还是使用 1,2 等其他值,这有什么区别吗?这个问题也适用于具有分类预测器的模型,因为在这种情况下,我必须决定如何对虚拟变量进行编码。

  3. 在交互项出现在我的模型中之前,我被鼓励将连续预测变量居中。既然我有这个交互术语,居中(仍然)是个好主意吗?

1个回答
  1. 假设您的连续变量是并且我们扩展二进制以包含然后我建议使用:x1x2x3

yi=β0+β1x1+β2x2+β3x3+β4x1x2+β5x1x3+εi

因此,如果连续变量与参考类别交互,它将默认包含在模型中。如果与第二个或第三个类别有交互,则将包含与参考类别的差异。此外,正如您所建议的,在之间放置交互效果是没有任何意义的。β4β5x2x3

  1. 指标变量应使用 0,1 编码。在这种情况下,如果指标不正确,则变量为零,对应的退出方程。这使得系数的解释更加容易。β

例如,如果您的类别是第二个类别 ( )。那么对于给定的,类别效应的解释是并且给定,对于每增加一个单位,您的响应变量就会增加一个x2=1x1β0+β2x2=1x1β1+β4

  1. 这是一篇关于居中变量的精彩文章。作为一个简短的回答,如果您之前打算将变量居中,那么添加交互效果不应该改变这一点。实际上,添加交互效应是一些人开始将变量居中以减少共线性的原因之一。