带有虚拟变量的 OLS 中的线性假设

机器算法验证 回归 最小二乘 非线性回归 分类编码
2022-03-27 04:57:58

假设我有一个连续响应变量,并构建了一个具有多个预测变量的回归模型。我的大多数预测变量都是连续的,但我有一个是虚拟变量。如何确定是否满足或违反了 ols 的线性假设?如果违反了线性假设,我将如何转换虚拟变量?

2个回答

这个问题该有答案了。

我有一个连续响应变量和一个具有多个预测变量的回归模型。
我的大多数预测都是连续的

预测器的连续性与否无关紧要;一个关系只需要在它定义的域上是线性的,它就是线性的。

如何确定是否满足或违反了 ols 的线性假设?

使用 0/1 预测器(说)只有两种可能性:d

E(Y|d=0,x_)=E(Y|d=1,x_)

E(Y|d=0,x_)E(Y|d=1,x_)

(其中是所有其他预测变量)x_

在任何一种情况下,都满足线性,因为总体系数是任何一种情况下期望值的差异。

然而,系数的大小可能取决于其他参数的值(即其他预测变量和之间可能存在相互作用)。d

如果违反了线性假设,我将如何转换虚拟变量?

方面的(条件)线性是自动满足的 - 幸运的是,因为我们在这里无法通过尝试转换虚拟对象来获得任何实质性的东西。yd

除了Glen_b的出色回答之外,值得注意的是,将分类变量添加到回归中不会导致线性假设本身出现问题如果模型中存在非线性问题,那将是由于特定模型形式未捕获的某些潜在关系造成的,但包含分类变量不会导致此问题。

为了更清楚地看到这一点,考虑一个具有任意分类变量的回归,其中封装的其他项。 分类变量在回归中由类别的指标变量表示(具有一个基本类别)。因此模型中的相关术语将如下所示:h=1,...,kk2x.k1

E(Yi|x,h)=β0+=1k1βI(hi=)+Other terms for xi.

回归中的线性假设要求回归方程关于系数参数是线性的。回归中类别变量的存在增加了适用于类别的参数每个单独的指标项只是根据分类变量是否属于该类别,为条件期望的差异添加一个项。这些项的添加不能构成非线性。hβ1,...βk1