如何测量机器学习中不同随机种子导致的偏差?

数据挖掘 机器学习 xgboost 偏见
2022-02-05 18:59:24

我正在运行一个 xgboost 模型来预测二进制分类问题的概率。然后我根据年龄变量汇总结果(年龄 x 患病的总风险是多少)。我犯了一个错误,没有将种子数设置为常数,所以当我重新运行模型时,我得到的聚合结果略有不同。你能给我一个参考,为什么它不重要吗?所以我可以避免在几个种子设置上运行模型以获得置信区间?我不想这样做,因为学习过程需要几个小时。先感谢您!

1个回答

不幸的是,它实际上可能很大这篇不错的文章深入探讨了它,这个问题也显示了一些明显的影响。

因此,根据模型性能、使用的模型/算法,尤其是数据集的分布,您可以预期随机种子对结果的影响几乎与优化任何其他参数一样多(两个示例中的点数约为 2-4%)。

您可以通过减少数据集中的不平衡来最小化这种情况(例如,重新采样训练和测试数据会产生类似的效果)或简单地修复您的随机种子并且从不接触它。

既然你在你所在的地方,你可以做的事情并不多。也许指向我拥有的两个来源会让你摆脱固定的“间隔”,或者你可能只是使用你的最后一个结果。