我正在使用 sklearn Random Forrest 来训练我的模型。使用与模型相同的输入特征,我首先尝试使用 label_binarize 传递目标标签以创建目标标签的热编码,然后尝试使用 label_encoder 对目标标签进行编码。在这两种情况下,我都会得到不同的准确度分数。发生这种情况是否有特定原因,因为我只是使用不同的方法对标签进行编码而不更改任何输入特征。
随机 Forrest Sklearn 为具有相同输入特征的不同目标标签编码提供不同的精度
数据挖掘
scikit-学习
随机森林
多标签分类
一热编码
2022-03-02 15:12:10
1个回答
是的。由于 y 是一维整数数组(如 LabelEncoder 之后),sklearn 将其视为多类分类问题。由于 y 是一个二维二进制数组(在 LabelBinarizer 之后),sklearn 将其视为一个多标签问题。
据推测,多标签模型预测某些行没有标签。(由于您的实际数据不是多标签的,模型中所有类别的概率之和可能仍为 1,因此该模型永远不会预测超过一个类别。如果总是准确预测一个类别,则多类和多标签模型应该相同。)
其它你可能感兴趣的问题