从模型中删除项后的适当剩余自由度

机器算法验证 r 回归 模型选择 回归策略
2022-01-30 10:44:03

我正在反思围绕这个问题的讨论,特别是 Frank Harrell 的评论,即简化模型(即已经测试并拒绝了许多解释变量的模型)中的方差估计应该使用 Ye 的广义自由度Harrell 教授指出,这将更接近于原始“完整”模型(包含所有变量)的剩余自由度,而不是最终模型(其中许多变量已被拒绝)的剩余自由度。

问题 1. 如果我想对简化模型中的所有标准摘要和统计数据使用适当的方法(但没有完全实现广义自由度),那么合理的方法是仅使用剩余自由度我估计剩余方差等的完整模型?

问题 2. 如果上述情况属实,我想在 中进行R,是否可以像设置一样简单

finalModel$df.residual <- fullModel$df.residual

在模型拟合练习的某个时刻,finalModel 和 fullModel 是使用 lm() 或类似函数创建的。之后,summary() 和 confint() 之类的函数似乎可以与所需的 df.residual 一起使用,尽管返回的错误消息表明有人明显弄乱了 finalModel 对象。

1个回答

你不同意@FrankHarrel 的回答,即简约会带来一些丑陋的科学权衡,无论如何?

我喜欢@MikeWiezbicki对 Doug Bates 理由的评论中提供的链接。如果有人不同意您的分析,他们可以按照自己的方式进行,这是开始对您的基本假设进行科学讨论的有趣方式。p 值不会使您的结论成为“绝对真理”。

如果决定是否在模型中包含参数归结为“挑毛病”,对于具有科学意义的样本,df 中的差异相对较小——而你没有处理n<p无论如何,可以证明更细致入微的推理的问题 - 那么你有一个非常接近你的临界值的参数,你应该透明并以任何一种方式谈论它:只需包含它,或者分析有和没有它的模型,但绝对透明地讨论归根结底是你的决定。