我想分两部分提出这个问题。两者都处理广义线性模型,但第一个处理模型选择,另一个处理正则化。
背景:我使用 GLM(线性、逻辑、伽马回归)模型进行预测和描述。当我提到“回归的正常事情”时,我主要指的是(i)系数周围的置信区间,(ii)预测周围的置信区间和(iii)关于系数线性组合的假设检验,例如“是治疗 A 和治疗 B 有区别吗?”。
您是否合法地失去了使用以下各项下的正常理论做这些事情的能力?如果是这样,这些东西真的只对用于纯预测的模型有用吗?
I.当 GLM 通过某种模型选择过程拟合时(具体来说,它是基于 AIC 的逐步过程)。
二、当通过正则化方法拟合 GLM 时(例如在 R 中使用 glmnet)。
我的感觉是,对于我来说,从技术上讲,您应该使用引导程序来执行“回归的正常事情”,但没有人真正遵守这一点。
补充:
在得到一些回复并在其他地方阅读后,这是我对此的看法(为了其他任何人的利益以及接受纠正)。
I.
A) RE:错误概括。为了概括新数据的错误率,当没有保留集时,交叉验证可以工作,但您需要为每个折叠完全重复该过程 - 使用嵌套循环 - 因此必须进行任何特征选择、参数调整等每次独立完成。这个想法应该适用于任何建模工作(包括惩罚方法)。
B) RE:GLM 的假设检验和置信区间。当对广义线性模型使用模型选择(特征选择、参数调整、变量选择)并且存在保留集时,允许在分区上训练模型,然后在剩余数据或完整数据集上拟合模型并使用该模型/数据执行假设检验等。如果不存在保留集,则可以使用引导程序,只要对每个引导程序样本重复整个过程即可。这限制了可以进行的假设检验,因为例如可能并不总是选择变量。
C)RE:不对未来数据集进行预测,然后拟合由理论和一些假设检验指导的有目的的模型,甚至考虑将所有变量留在模型中(显着或不显着)(沿着 Hosmer 和 Lemeshow 的路线)。这是小变量集经典类型的回归建模,然后允许使用 CI 和假设检验。
D) RE:惩罚回归。没有建议,也许认为这仅适用于预测(或作为一种特征选择,然后应用于上述 B 中的另一个数据集),因为引入的偏差使 CI 和假设测试不明智——即使使用引导程序也是如此。