我使用随机森林来训练我的数据(我的数据在目标类中存在不平衡,即稀有 1 和丰富的 0)。我面临 3 个关于估计器稳定性及其预测能力的问题。我认为这些问题在许多机器学习算法中可能很常见。
ROC_AUC_Score当我重新采样训练集(其余的是测试集)时,我发现变化很大。在更改训练集时,它可以在到- 参数调整也会导致估计器的移动,
ROC_AUC_Score但效果比上面的第一种情况要弱。 - 在运行模型拟合的一些迭代时,结果也各不相同,但效果最弱。
对于2、3,我认为通过记录每次迭代和参数调优,可以得到最好的参数设置和拟合结果。(也许可以更有效地做到这一点,请指教)
还请指教如何处理第一个问题以使配件令人信服和可靠?交叉验证?
非常感谢