机器算法验证 - 可以使用 Frank Harrell 的方法来获得乐观校正的回归系数吗？ - 吾爱随笔录

机器算法验证机器学习引导程序套索验证过拟合

2022-03-08 04:32:51

我使用正则化 (LASSO) Cox 回归来估计患者的复发时间，并使用 Frank Harrell 的自举方法来获得我的模型的乐观校正性能估计。

问题：我可以使用相同的方法来校正我的最佳模型的回归系数（基于最小 lambda）吗？

optimism-corrected b = b of best model - Harrell 方法估计的预测准确度的乐观度

这样的乐观修正 b 是否会更好地预测未见病例？

1个回答

这与 Harrell 在撰写有关引导验证的文章时的意思背道而驰。

哈雷尔的论点基本上是这样的。

拆分数据会浪费本可以用于训练的数据，因此在整个数据集上进行训练。
但是，我们有过拟合的风险。我们总是冒着过度拟合的风险，但是当我们有保留数据时，我们可以发现我们刚刚玩了连接点。
因此，引导您的数据，将模型拟合到引导样本，在整个数据集上评估该模型，并查看该性能与在整个数据集上训练的模型的性能相比如何。因为我们多次使用引导样本进行这些操作，所以当我们对整个数据集进行训练时，我们可以很好地估计过拟合。
如果我们对过度拟合的程度感到满意，那么我们应该使用在整个数据集上训练的模型，我们现在认为该模型已经过验证。

我们绝不会调整系数。

其它你可能感兴趣的问题