当我向线性模型添加一个新变量并且 R^2 保持不变时,这意味着什么?

机器算法验证 线性模型 r平方
2022-04-06 09:49:54

我倾向于认为新变量与响应无关。但是新变量可以与模型中的另一个变量相关吗?

2个回答

几乎没有变化,这意味着该变量对模型中已有内容的响应几乎没有额外的解释能力。正如您所注意到的,这可能是因为它几乎没有告诉您有关响应的任何信息,或者它解释了与模型中已有变量相同的响应变化。R2

正如其他人所暗示的那样,当您将变量添加到回归中时在有限样本中,只有当您的新变量是已经存在的变量的线性组合时才会发生这种情况。在这种情况下,大多数标准回归例程只是从回归中排除该变量,并且您的将保持不变,因为模型实际上没有改变。R2R2

正如您所注意到的,这并不意味着该变量不重要,而是您无法将其影响与模型中其他变量的影响区分开来。

然而,更广泛地说,我(以及 Cross Validated 的许多人)会警告不要使用 R^2 进行模型选择和解释。我在上面讨论的是如何无法改变并且变量仍然很重要。更糟糕的是,当您包含一个不相关的变量时,可能会发生一些变化(甚至是剧烈变化)。从广义上讲,使用进行模型选择在 70 年代不受欢迎,当时它被 AIC(及其同时代的)所取代。今天——典型的统计学家会推荐使用交叉验证(见网站名称)来选择模型。R2R2R2

一般来说,添加一个变量会增加 ——因此使用来确定变量的重要性有点像野鹅追逐。即使试图理解简单的情况,你最终也会得到一个完全荒谬的变量集合。R2R2