在使用虚拟变量执行多元回归时,是否真的需要在设计矩阵中包含截距项?
我所说的虚拟变量是指指标变量;如果存在某种效果,则设计矩阵中为 1,否则为 0。在我看来,如果没有拦截,解释 OLS 解决方案会更简单。代替
=(其中是截距)
=
=
等等
我们有
=
=
=
等等
的计算,F 统计量和 t 统计量是否改变?
如果包含连续自变量怎么办?
在使用虚拟变量执行多元回归时,是否真的需要在设计矩阵中包含截距项?
我所说的虚拟变量是指指标变量;如果存在某种效果,则设计矩阵中为 1,否则为 0。在我看来,如果没有拦截,解释 OLS 解决方案会更简单。代替
=(其中是截距)
=
=
等等
我们有
=
=
=
等等
的计算,F 统计量和 t 统计量是否改变?
如果包含连续自变量怎么办?
预测、残差、完全简化的模型测试等内容不会受到您提出的更改的影响,但改变的是对各个术语的解释和测试。
大多数回归例程将自动测试项是否为 0。当一个术语表示两个组均值之间的差异时这是有意义的(当我们包含一个截距时我们得到什么),但是测试每个组均值是否等于 0 有意义吗?置信区间也是如此,我们通常想知道组是否彼此不同。如果每个项只代表一个平均值,那么我们计算平均值的置信区间,然后人们会尝试通过查看区间是否重叠来解释差异的大小,但这远不如查看差异的置信区间。
@GregSnow 是对的,这种变化并不重要。让我添加一些细节来扩展它。您所说的有时称为级别意味着编码,而默认编码方案称为参考级别编码。请注意,有许多可能的有效编码方案。如果您有一个只有两个级别的分类变量,那么当您使用参考级别编码时,任何统计软件的回归输出中默认出现的 beta 的 t 检验更有意义。
另一方面,当您有一个包含多个类别的分类变量时,您使用哪种编码方案只是个人喜好问题。要获得预测值,您必须求解回归方程无论哪种方式,都在协变量空间的相关位置。要测试分类变量是否与响应相关,您将需要使用 F 变化测试(在此处讨论),等等。
为了更具体地解决您的具体问题:如果您使用水平均值编码而不是参考水平编码,则 F 统计量将是相同的;正如@GregSnow 解释的那样,t 统计量将发生变化,因为它们现在将测试您的水平平均值是否为零;并且包含连续协变量将是相同的。