机器算法验证 - 生存分析问题中的训练、测试和验证 - 吾爱随笔录

生存分析问题中的训练、测试和验证

机器算法验证交叉验证生存火车

2022-03-25 20:13:52

我一直在这里浏览各种主题，但我认为我的确切问题没有得到回答。

我有约 50,000 名学生的数据集以及他们的辍学时间。我将使用大量潜在协变量执行比例风险回归。我还将对辍学/留校进行逻辑回归。主要目标是预测新的学生群体，但我们没有理由相信他们与去年的学生群体有很大差异。

通常情况下，我没有这么多的数据，并且会用某种惩罚来进行模型拟合，但是这次我想将 int 训练和测试数据集分开，然后在训练集上进行变量选择；然后使用测试数据集来估计参数和预测能力。

这是一个好策略吗？如果不是，什么更好？

欢迎引用，但不是必需的。

3个回答

以类似的结果频率，我发现如果数据拆分可以工作。如果您只使用一次测试样本，它提供了对模型性能的无偏估计，适当地惩罚模型选择（如果你真的需要模型选择；惩罚仍然更有可能产生更好的模型）。但是不要使用测试样本来重新估计参数。数据拆分依赖于使用训练样本构建的模型被放入“深度冻结”并应用于测试样本而不进行调整。 $n > 20,000$

我自己一直在看这篇论文，以完成交叉验证生存预测的类似任务。好的部分从第 2 章开始。

从那以后，我发现这篇论文不仅回答了我的问题，而且提供了一种方法来确定特定数据集的最佳拆分。由于@FrankHarrell 使用了“最佳拆分配置”一词，我发现了这一点，然后我用谷歌搜索了该词。

其它你可能感兴趣的问题

上一篇格兰杰因果检验的滞后顺序下一篇拟合曲线时，如何计算拟合参数的 95% 置信区间？