为什么要抑制线性回归中的截距?

机器算法验证 回归 截距
2022-01-22 06:12:29

在包括 SAS、SPSS 等在内的许多统计软件包中,有一个“抑制截距”选项。你为什么想这么做?

3个回答

如果由于某种原因您知道截距(特别是如果它为零),您可以避免浪费数据中的方差来估计您已经知道的东西,并且对您必须估计的值更有信心

一个有点过于简单的例子是,如果您已经(从领域知识)知道一个变量(平均而言)是另一个变量的倍数,并且您正试图找到该倍数。

考虑 3 级分类协变量的情况。如果有截距,则需要 2 个指示变量。使用指标变量的通常编码,任一指标变量的系数都是与参考组相比的平均差。通过抑制截距,您将拥有 3 个表示分类协变量的变量,而不仅仅是 2 个。然后,一个系数就是该组的平均估计值。一个更具体的例子是在政治学领域,人们可能正在研究美国的 50 个州。与其拥有一个截距和 49 个状态指示变量,通常更可取的是抑制截距,而是使用 50 个变量。

用一个具体的例子来说明@Nick Sabbe 的观点。

我曾经看到一位研究人员展示了一个树的年龄模型,它是其宽度的函数。可以假设当树的年龄为零时,它的宽度实际上为零。因此,不需要截取。