数据挖掘 - 如何呈现最终模型（例如随机森林）？ - 吾爱随笔录

数据挖掘机器学习 Python 特征选择随机森林交叉验证

2022-03-08 13:10:47

我在我的数据集（不平衡、二进制目标类）上运行了随机森林，并使用交叉验证来调整参数，并使用递归特征消除和交叉验证来获取特征子集。

然后我可以提出最佳参数设置以及模型拟合的特征集。

但是概率阈值呢？

我怎样才能得出一个阈值作为最终模型的重要部分？

还用简历？

如果这个阈值在 CV 的折叠中不稳定，下一步该怎么做？

2个回答

可以更改概率阈值，您将获得准确度/召回率/精度/F1 分数（目标）的不同结果。您可以将此视为您为获得最佳目标而调整的参数的一个方面。

与 CV 类似，训练外折叠目标将与其他参数一起报告，例如树数和预测子集大小。关于 CV 折叠阈值的不稳定性，我能想到的一个原因是 CV 折叠没有使用分层抽样进行拆分，导致在折叠中观察到不同比例的阳性。

作为 jkyh 的后续行动，我还想指出，如果您的模型的方差很高，这也可能导致 cv 折叠之间的指标变化。您应该检查偏差/方差权衡。

其它你可能感兴趣的问题