回归模型交叉验证中的模型稳定性

机器算法验证 回归 模型选择 交叉验证
2022-03-15 00:25:56

给定逻辑回归的多个交叉验证折叠,以及每个回归系数的多重估计,应该如何根据回归系数来衡量一个预测变量(或一组预测变量)是否稳定和有意义? 这对线性回归有什么不同吗?

2个回答

您可以将 CV 中每个测试折叠产生的回归系数视为独立观察值,然后使用 Shrout & Fleiss 报告的类内相关系数 (ICC) 计算它们的可靠性/稳定性。

我假设您在交叉验证中将数据分为两部分,一个训练集和一个测试集。在一个折叠中,您从训练集中拟合一个模型并使用它来预测测试集的响应,对吗?这将为您提供整个模型的错误率,而不是单个预测变量。

我不知道是否可以使用普通线性回归中使用的 F 检验等方法找到预测变量的 p 值。

如果这是您的目标,您可以尝试使用例如向后或向前选择从模型中删除预测变量。

您可以代替 CV 使用 bootstrap 来查找每个预测变量的置信区间,然后查看它的稳定性。

你在简历中使用了多少折,是留一法交叉验证吗?

也许您的目标的更多细节将有助于回答这个问题。