我在我的数据集(不平衡、二进制目标类)上运行了随机森林,并使用交叉验证来调整参数,并使用递归特征消除和交叉验证来获取特征子集。
然后我可以提出最佳参数设置以及模型拟合的特征集。
但是概率阈值呢?
我怎样才能得出一个阈值作为最终模型的重要部分?
还用简历?
如果这个阈值在 CV 的折叠中不稳定,下一步该怎么做?
我在我的数据集(不平衡、二进制目标类)上运行了随机森林,并使用交叉验证来调整参数,并使用递归特征消除和交叉验证来获取特征子集。
然后我可以提出最佳参数设置以及模型拟合的特征集。
但是概率阈值呢?
我怎样才能得出一个阈值作为最终模型的重要部分?
还用简历?
如果这个阈值在 CV 的折叠中不稳定,下一步该怎么做?
可以更改概率阈值,您将获得准确度/召回率/精度/F1 分数(目标)的不同结果。您可以将此视为您为获得最佳目标而调整的参数的一个方面。
与 CV 类似,训练外折叠目标将与其他参数一起报告,例如树数和预测子集大小。关于 CV 折叠阈值的不稳定性,我能想到的一个原因是 CV 折叠没有使用分层抽样进行拆分,导致在折叠中观察到不同比例的阳性。
作为 jkyh 的后续行动,我还想指出,如果您的模型的方差很高,这也可能导致 cv 折叠之间的指标变化。您应该检查偏差/方差权衡。