一个不能改善样本外预测的“重要变量”——如何解释?

机器算法验证 统计学意义 预测模型 p 值 预言 样本外
2022-03-01 04:03:58

我有一个我认为对很多用户来说非常基本的问题。

我使用线性回归模型(i)研究几个解释变量和我的响应变量的关系,以及(ii)使用解释变量预测我的响应变量。

一个特定的解释变量 X 似乎显着影响了我的响应变量。为了测试这个解释变量 X 的附加值,以便对我的响应变量进行样本外预测,我使用了两个模型:使用所有解释变量的模型 (a) 和使用所有变量的模型 (b)除了变量 X。对于这两个模型,我只报告样本外的表现。看起来这两种模型的表现几乎一样好。换句话说,添加解释变量 X 不会改善样本外预测。请注意,我还使用了模型 (a),即具有所有解释变量的模型,以发现解释变量 X 确实显着影响了我的响应变量。

我现在的问题是:如何解释这一发现?直接的结论是,即使变量 X 使用推理模型似乎显着影响了我的响应变量,但它并没有改善样本外预测。但是,我很难进一步解释这一发现。这怎么可能?对这一发现有什么解释?

提前致谢!

额外信息:“显着影响”我的意思是 0 不包括在参数估计的最高 95% 后验密度区间中(我使用贝叶斯方法)。在常客术语中,这大致对应于 p 值低于 0.05。对于我的所有模型参数,我只使用扩散(无信息)先验。我的数据具有纵向结构,总共包含大约 7000 个观测值。对于样本外预测,我使用 90% 的数据来拟合我的模型,并使用 10% 的数据来使用多次复制来评估模型。也就是说,我多次执行训练测试拆分并最终报告平均性能指标。

2个回答

当一个特定的预测变量在统计上显着并不意味着它也显着提高了模型的预测性能。预测性能与效应大小更相关。例如,下面的函数模拟来自具有两个预测变量x1和的线性回归模型的数据x2,并拟合两个模型,一个具有两个x1x2,一个具有x1单独的模型。在该函数中,您可以更改 的效果大小x2该函数报告 和 的系数的置信区间x1x2以及R2两个模型的值作为预测性能的度量。

功能是:

sim_ES <- function (effect_size = 1, sd = 2, n = 200) {
    # simulate some data
    DF <- data.frame(x1 = runif(n, -3, 3), x2 = runif(n, -3, 3))
    DF$y <- 2 + 5 * DF$x1 + (effect_size * sd) * DF$x2 + rnorm(n, sd = sd)

    # fit the models with and without x2
    fm1 <- lm(y ~ x1 + x2, data = DF)
    fm2 <- lm(y ~ x1, data = DF)

    # results
    list("95% CIs" = confint(fm1),
         "R2_X1_X2" = summary(fm1)$r.squared,
         "R2_only_X1" = summary(fm2)$r.squared)
}

例如,对于我们得到的默认值,

$`95% CIs`
               2.5 %   97.5 %
(Intercept) 1.769235 2.349051
x1          4.857439 5.196503
x2          1.759917 2.094877

$R2_X1_X2
[1] 0.9512757

$R2_only_X1
[1] 0.8238826

所以x2很重要,并且不将其包含在模型中会对R2.

但是如果我们将效果大小设置为 0.3,我们会得到:

> sim_ES(effect_size = 0.3)
$`95% CIs`
                2.5 %    97.5 %
(Intercept) 1.9888073 2.5563233
x1          4.9383698 5.2547929
x2          0.3512024 0.6717464

$R2_X1_X2
[1] 0.9542341

$R2_only_X1
[1] 0.9450327

系数仍然显着,但在改善R2非常小。

这是在多元回归中发生的相当正常的事情。最常见的原因是您的预测变量彼​​此相关。换句话说,您可以从其他预测变量的值推断 X。因此,虽然如果它是您拥有的唯一预测器,它对预测很有用,但一旦您拥有所有其他预测器,它就不会提供太多额外信息。您可以通过在其他预测变量上回归 X 来检查是否是这种情况。我还会参考免费在线教科书 Elements of Statistical Learning 中关于线性回归的章节。