生存分析问题中的训练、测试和验证

机器算法验证 交叉验证 生存 火车
2022-03-25 20:13:52

我一直在这里浏览各种主题,但我认为我的确切问题没有得到回答。

我有约 50,000 名学生的数据集以及他们的辍学时间。我将使用大量潜在协变量执行比例风险回归。我还将对辍学/留校进行逻辑回归。主要目标是预测新的学生群体,但我们没有理由相信他们与去年的学生群体有很大差异。

通常情况下,我没有这么多的数据,并且会用某种惩罚来进行模型拟合,但是这次我想将 int 训练和测试数据集分开,然后在训练集上进行变量选择;然后使用测试数据集来估计参数和预测能力。

这是一个好策略吗?如果不是,什么更好?

欢迎引用,但不是必需的。

3个回答

以类似的结果频率,我发现如果数据拆分可以工作。如果您只使用一次测试样本,它提供了对模型性能的无偏估计,适当地惩罚模型选择(如果你真的需要模型选择;惩罚仍然更有可能产生更好的模型)。 但是不要使用测试样本来重新估计参数。数据拆分依赖于使用训练样本构建的模型被放入“深度冻结”并应用于测试样本而不进行调整。n>20,000

我自己一直在看这篇论文,以完成交叉验证生存预测的类似任务。好的部分从第 2 章开始。

从那以后,我发现这篇论文不仅回答了我的问题,而且提供了一种方法来确定特定数据集的最佳拆分。由于@FrankHarrell 使用了“最佳拆分配置”一词,我发现了这一点,然后我用谷歌搜索了该词。