机器算法验证 - 多元回归中的虚拟变量，为什么要使用截距？ - 吾爱随笔录

多元回归中的虚拟变量，为什么要使用截距？

机器算法验证回归多重回归方差分析分类数据分类编码

2022-03-18 01:00:58

在使用虚拟变量执行多元回归时，是否真的需要在设计矩阵中包含截距项？

我所说的虚拟变量是指指标变量；如果存在某种效果，则设计矩阵中为 1，否则为 0。在我看来，如果没有拦截，解释 OLS 解决方案会更简单。代替

$\beta_{0}$ =（其中是截距） $\mu_{A}$ $\beta_{0}$

$\beta_{1}$ = $\mu_{B} - \mu_{A}$

$\beta_{2}$ = $\mu_{C} - \mu_{A}$

等等

我们有

$\beta_{1}$ = $\mu_{A}$

$\beta_{2}$ = $\mu_{B}$

$\beta_{3}$ = $\mu_{C}$

等等

的计算，F 统计量和 t 统计量是否改变？ $R^{2}$

如果包含连续自变量怎么办？

2个回答

预测、残差、完全简化的模型测试等内容不会受到您提出的更改的影响，但改变的是对各个术语的解释和测试。

大多数回归例程将自动测试项是否为 0。当一个术语表示两个组均值之间的差异时这是有意义的（当我们包含一个截距时我们得到什么），但是测试每个组均值是否等于 0 有意义吗？置信区间也是如此，我们通常想知道组是否彼此不同。如果每个项只代表一个平均值，那么我们计算平均值的置信区间，然后人们会尝试通过查看区间是否重叠来解释差异的大小，但这远不如查看差异的置信区间。

@GregSnow 是对的，这种变化并不重要。让我添加一些细节来扩展它。您所说的有时称为级别意味着编码，而默认编码方案称为参考级别编码。请注意，有许多可能的有效编码方案。如果您有一个只有两个级别的分类变量，那么当您使用参考级别编码时，任何统计软件的回归输出中默认出现的 beta 的 t 检验更有意义。

另一方面，当您有一个包含多个类别的分类变量时，您使用哪种编码方案只是个人喜好问题。要获得预测值，您必须求解回归方程 $\hat y$ 无论哪种方式，都在协变量空间的相关位置。要测试分类变量是否与响应相关，您将需要使用 F 变化测试（在此处讨论），等等。

为了更具体地解决您的具体问题：如果您使用水平均值编码而不是参考水平编码，则 F 统计量将是相同的；正如@GregSnow 解释的那样，t 统计量将发生变化，因为它们现在将测试您的水平平均值是否为零；并且包含连续协变量将是相同的。

其它你可能感兴趣的问题

上一篇“事后”多重比较的含义下一篇为什么似然函数不是逆谬误的情况？