我正在运行一个 xgboost 模型来预测二进制分类问题的概率。然后我根据年龄变量汇总结果(年龄 x 患病的总风险是多少)。我犯了一个错误,没有将种子数设置为常数,所以当我重新运行模型时,我得到的聚合结果略有不同。你能给我一个参考,为什么它不重要吗?所以我可以避免在几个种子设置上运行模型以获得置信区间?我不想这样做,因为学习过程需要几个小时。先感谢您!
如何测量机器学习中不同随机种子导致的偏差?
数据挖掘
机器学习
xgboost
偏见
2022-02-05 18:59:24