我有一个包含大约 5,000 个通常相关的特征/协变量和二元响应的数据集。数据是给我的,我没有收集。我使用 Lasso 和梯度提升来构建模型。我使用迭代的、嵌套的交叉验证。我报告了 Lasso 的最大(绝对)40 个系数和梯度提升树中的 40 个最重要的特征(40 个没有什么特别之处;它似乎只是一个合理的信息量)。我还报告了这些数量在 CV 的折叠和迭代中的方差。
我对“重要”特征有点沉思,没有对 p 值或因果关系或任何东西做任何陈述,而是认为这个过程是一种——尽管不完美和有点随机——对某种现象的洞察。
假设我已经正确地完成了所有这些(例如,正确执行交叉验证,缩放套索),这种方法是否合理?是否存在多重假设检验、事后分析、错误发现等问题?还是其他问题?
客观的
预测不良事件的概率
- 首先,准确估计概率
- 更轻微的——作为一个健全性检查,但也可能揭示一些可以进一步研究的新预测因子,检查上面提到的系数和重要性。
消费者
- 有兴趣预测此事件的研究人员以及如果该事件发生最终不得不修复该事件的人
我希望他们从中得到什么
如果他们希望使用自己的数据重复建模过程,如所述,让他们能够预测事件。
揭示出乎意料的预测因素。例如,结果可能是完全出乎意料的事情是最好的预测指标。因此,其他地方的建模者可能会更认真地考虑所述预测器。