模型选择或正则化后的 GLM

机器算法验证 回归 模型选择 正则化
2022-02-27 08:49:24

我想分两部分提出这个问题。两者都处理广义线性模型,但第一个处理模型选择,另一个处理正则化。

背景:我使用 GLM(线性、逻辑、伽马回归)模型进行预测和描述。当我提到“回归的正常事情”时,我主要指的是(i)系数周围的置信区间,(ii)预测周围的置信区间和(iii)关于系数线性组合的假设检验,例如“是治疗 A 和治疗 B 有区别吗?”。

您是否合法地失去了使用以下各项下的正常理论做这些事情的能力?如果是这样,这些东西真的只对用于纯预测的模型有用吗?

I.当 GLM 通过某种模型选择过程拟合时(具体来说,它是基于 AIC 的逐步过程)。

二、当通过正则化方法拟合 GLM 时(例如在 R 中使用 glmnet)。

我的感觉是,对于我来说,从技术上讲,您应该使用引导程序来执行“回归的正常事情”,但没有人真正遵守这一点。

补充:
在得到一些回复并在其他地方阅读后,这是我对此的看法(为了其他任何人的利益以及接受纠正)。

I.
A) RE:错误概括。为了概括新数据的错误率,当没有保留集时,交叉验证可以工作,但您需要为每个折叠完全重复该过程 - 使用嵌套循环 - 因此必须进行任何特征选择、参数调整等每次独立完成。这个想法应该适用于任何建模工作(包括惩罚方法)。

B) RE:GLM 的假设检验和置信区间。当对广义线性模型使用模型选择(特征选择、参数调整、变量选择)并且存在保留集时,允许在分区上训练模型,然后在剩余数据或完整数据集上拟合模型并使用该模型/数据执行假设检验等。如果不存在保留集,则可以使用引导程序,只要对每个引导程序样本重复整个过程即可。这限制了可以进行的假设检验,因为例如可能并不总是选择变量。

C)RE:不对未来数据集进行预测,然后拟合由理论和一些假设检验指导的有目的的模型,甚至考虑将所有变量留在模型中(显着或不显着)(沿着 Hosmer 和 Lemeshow 的路线)。这是小变量集经典类型的回归建模,然后允许使用 CI 和假设检验。

D) RE:惩罚回归。没有建议,也许认为这仅适用于预测(或作为一种特征选择,然后应用于上述 B 中的另一个数据集),因为引入的偏差使 CI 和假设测试不明智——即使使用引导程序也是如此。

2个回答

您可以查看 David Freedman 的论文,“ A Note on Screening Regression Equations。 ”(未加门限)

在模拟中使用完全不相关的数据,他表明,如果相对于观察数量有许多预测变量,那么标准筛选程序将产生最终回归,其中包含许多(不仅仅是偶然的)显着预测变量和非常显着的 F统计。最终模型表明它在预测结果方面是有效的,但这种成功是虚假的。他还使用渐近计算说明了这些结果。建议的解决方案包括筛选样本并在完整数据集上评估模型,并使用比预测变量至少多一个数量级的观察结果。

关于1)是的,你确实失去了这个。参见 Harrell Regression Modeling Strategies,Wiley 出版的一本书或我与 David Cassell 一起提交的名为“Stopping Stepwise”的论文,例如 www.nesug.org/proceedings/nesug07/sa/sa07.pdf