发现的高维、相关数据和主要特征/协变量;多重假设检验?

机器算法验证 机器学习 多重比较 回归系数 套索 高维
2022-03-19 04:44:32

我有一个包含大约 5,000 个通常相关的特征/协变量和二元响应的数据集。数据是给我的,我没有收集。我使用 Lasso 和梯度提升来构建模型。我使用迭代的、嵌套的交叉验证。我报告了 Lasso 的最大(绝对)40 个系数和梯度提升树中的 40 个最重要的特征(40 个没有什么特别之处;它似乎只是一个合理的信息量)。我还报告了这些数量在 CV 的折叠和迭代中的方差。

我对“重要”特征有点沉思,没有对 p 值或因果关系或任何东西做任何陈述,而是认为这个过程是一种——尽管不完美和有点随机——对某种现象的洞察。

假设我已经正确地完成了所有这些(例如,正确执行交叉验证,缩放套索),这种方法是否合理?是否存在多重假设检验、事后分析、错误发现等问题?还是其他问题?

客观的

预测不良事件的概率

  • 首先,准确估计概率
  • 更轻微的——作为一个健全性检查,但也可能揭示一些可以进一步研究的新预测因子,检查上面提到的系数和重要性。

消费者

  • 有兴趣预测此事件的研究人员以及如果该事件发生最终不得不修复该事件的人

我希望他们从中得到什么

  • 如果他们希望使用自己的数据重复建模过程,如所述,让他们能够预测事件。

  • 揭示出乎意料的预测因素。例如,结果可能是完全出乎意料的事情是最好的预测指标。因此,其他地方的建模者可能会更认真地考虑所述预测器。

1个回答

预测的准确性没有问题。通过交叉验证可以很好地估计您的预测中的不确定性。也许有一个警告,如果你测试了很多参数设置,那么你就会高估准确度,所以你应该使用验证集来估计最终模型的准确度。此外,您的数据应该代表您将要进行预测的数据。

你很清楚,读者也应该清楚,你的预测器不是结果的原因,它们只是做出良好预测的预测器,并且在经验上运行良好。虽然我完全同意你的谨慎,但从观测数据推断任何因果关系无论如何都是有问题的。诸如重要性之类的东西是精心设计的对照研究中的“有效”概念,除此之外,它们只是您和其他人应该明智和谨慎地解释的工具。在具有报告置信区间的正常线性回归中,以及在 lasso 模型中,以及在梯度提升树模型中,可能存在常见原因、虚假效应、掩蔽和其他事情。