我一直在这里浏览各种主题,但我认为我的确切问题没有得到回答。
我有约 50,000 名学生的数据集以及他们的辍学时间。我将使用大量潜在协变量执行比例风险回归。我还将对辍学/留校进行逻辑回归。主要目标是预测新的学生群体,但我们没有理由相信他们与去年的学生群体有很大差异。
通常情况下,我没有这么多的数据,并且会用某种惩罚来进行模型拟合,但是这次我想将 int 训练和测试数据集分开,然后在训练集上进行变量选择;然后使用测试数据集来估计参数和预测能力。
这是一个好策略吗?如果不是,什么更好?
欢迎引用,但不是必需的。