如何呈现最终模型(例如随机森林)?

数据挖掘 机器学习 Python 特征选择 随机森林 交叉验证
2022-03-08 13:10:47

我在我的数据集(不平衡、二进制目标类)上运行了随机森林,并使用交叉验证来调整参数,并使用递归特征消除和交叉验证来获取特征子集。

然后我可以提出最佳参数设置以及模型拟合的特征集。

但是概率阈值呢?

我怎样才能得出一个阈值作为最终模型的重要部分?

还用简历?

如果这个阈值在 CV 的折叠中不稳定,下一步该怎么做?

2个回答

可以更改概率阈值,您将获得准确度/召回率/精度/F1 分数(目标)的不同结果。您可以将此视为您为获得最佳目标而调整的参数的一个方面。

与 CV 类似,训练外折叠目标将与其他参数一起报告,例如树数和预测子集大小。关于 CV 折叠阈值的不稳定性,我能想到的一个原因是 CV 折叠没有使用分层抽样进行拆分,导致在折叠中观察到不同比例的阳性。

作为 jkyh 的后续行动,我还想指出,如果您的模型的方差很高,这也可能导致 cv 折叠之间的指标变化。您应该检查偏差/方差权衡。