线性回归中截距的“大小”

机器算法验证 回归 截距
2022-04-19 18:23:13

我有一个关于这张桌子的问题。

在此处输入图像描述

为什么常数(截距)从模型 1 到模型 2 变化如此之大?

2个回答

当您添加更多预测变量时,每个预测变量的系数几乎总是会发生变化。这是当您提出不同问题时答案发生变化的示例。

您的软件应该让您完全没有预测变量来拟合回归。例如,如果我尝试使用没有预测变量的回归来预测人们的体重,那么我将得到平均体重作为预测。这将显示为截距或常数。

如果我然后添加高度作为预测器,截距b0

预计体重=b0+b1高度

是对假设的身高为零的人的预测。(想象一下插入高度=0; 然后是系数项b1消失。)报告的拦截b0在这种情况下,将超出数据范围,甚至可能作为负数返回。

如果我添加一个指标,如果男性则为 1,如果女性则为 0,那么现在的模型是

预计体重=b0+b1高度+ b2男性

截距现在是对一个假设的身高为零且是女性的人(对于谁是男性)的预测=0)。这将再次不同,但不会太大。

一般来说在

y^=b0+b1x1++bJxJ=b0+j=1Jxj

拦截b0是当所有的预测xj(所以所有x1xJ) 为零。在实践中,截距可能是一个难以置信或不可能的值,但这对原理没有影响。所以,作为集合xjs 发生变化,拦截也会发生变化。

尼克考克斯提供了一个很好的回应,我想添加一个更直观的答案。

模型 1

模型 1调查了研究对象所代表的对象之间的智商大脑大小之间的关系,无论这些对象的性别身高体重如何。

换句话说,如果您想象从中选择研究对象的目标对象群体,该群体包括对象的混合物——一些可能是女性,一些可能是男性,一些可能有 5 英尺 9 英寸的高度,有的可能有 5 英尺 5 英寸的高度等,有的可能有 160 磅的体重,有的可能有 120 磅的体重,等等。模型 1将所有这些科目纳入并研究他们的智商大脑之间的关系尺寸忽略(或不考虑)他们的性别身高体重换句话说,模型 1将所有这些科目混合在一起,然后研究混合科目的兴趣关系。

模型 2

模型 2调查了研究中由以下对象代表的受试者的智商大脑大小之间的关系:相同的性别、相同的身高和相同的体重

例如,模型 2研究了智商大脑大小之间的关系:

  • 男性身高 5 英尺 9 英寸,体重 160 磅;
  • 女性身高 5 英尺 5 英寸,体重 120 磅等。

模型 2假设智商大脑大小之间的关系对于由数据中存在的性别身高体重值组合定义的所有这些人口子集是相同的这种关系称为调整关系,因为它针对GenderHeightWeight进行了调整。相比之下,通过模型 1研究的智商大脑大小之间的关系是未经调整的关系。

模型 2对它考虑的主题有选择性 - 不是将所有主题混合在一起,而是关注目标人群中具有相同性别、相同身高和相同体重的主题子集。

模型 1 中的拦截解释

对于模型 1 ,(真)截距代表大脑大小等于 0的受试者在目标人群中的智商平均值。显然,这样的受试者存在——如果存在,他们将是无脑的。

模型 2 中的拦截解释

对于模型 2 ,(真)截距代表大脑大小等于 0、性别等于男性、身高等于 0 英寸且体重等于 0 磅的那些受试者在目标人群中的智商平均值. 同样,这样的主题不存在。

这两个截距都没有现实的解释。如果您将模型 1 中的变量 Brain size 和模型 2 中的变量 Brain size 、 Height 和 Weight 居中将从改装模型得到真实的解释。但是请注意,即使截距在实践中没有有意义的解释,您在此处拥有的两个回归模型中的斜率系数也是可解释的。

平均中心大脑大小后模型 1 中的截取解释

对于修改后的模型 1,(真实)截距表示目标人群中具有平均大脑大小的受试者的智商平均值。

以均值为中心的大脑大小、身高和体重后模型 2 中的截取解释

对于修改后的模型 2,(真)截距代表目标人群中具有平均脑容量、平均身高和平均体重的男性受试者的智商平均值。