我有一个我认为对很多用户来说非常基本的问题。
我使用线性回归模型(i)研究几个解释变量和我的响应变量的关系,以及(ii)使用解释变量预测我的响应变量。
一个特定的解释变量 X 似乎显着影响了我的响应变量。为了测试这个解释变量 X 的附加值,以便对我的响应变量进行样本外预测,我使用了两个模型:使用所有解释变量的模型 (a) 和使用所有变量的模型 (b)除了变量 X。对于这两个模型,我只报告样本外的表现。看起来这两种模型的表现几乎一样好。换句话说,添加解释变量 X 不会改善样本外预测。请注意,我还使用了模型 (a),即具有所有解释变量的模型,以发现解释变量 X 确实显着影响了我的响应变量。
我现在的问题是:如何解释这一发现?直接的结论是,即使变量 X 使用推理模型似乎显着影响了我的响应变量,但它并没有改善样本外预测。但是,我很难进一步解释这一发现。这怎么可能?对这一发现有什么解释?
提前致谢!
额外信息:“显着影响”我的意思是 0 不包括在参数估计的最高 95% 后验密度区间中(我使用贝叶斯方法)。在常客术语中,这大致对应于 p 值低于 0.05。对于我的所有模型参数,我只使用扩散(无信息)先验。我的数据具有纵向结构,总共包含大约 7000 个观测值。对于样本外预测,我使用 90% 的数据来拟合我的模型,并使用 10% 的数据来使用多次复制来评估模型。也就是说,我多次执行训练测试拆分并最终报告平均性能指标。