我已经为许多类训练了一个热二元预测模型,现在将其应用于样本测试集。但是,对于每个类别,很多样本的预测都是 0。我不确定如何处理这些结果,因为我需要制作一个混淆矩阵(nxn 表示类数),但我不知道这些预测的无类结果应该去哪里。我只是丢弃它们吗?我想这会创建模型错误率的错误图像。
您如何处理与混淆矩阵中的所有类都不匹配的一个热门编码项?
数据挖掘
混淆矩阵
一热编码
2022-03-03 01:59:37
1个回答
这取决于您的任务设计,有两种选择:
- 该任务是常规的多类分类,即每个实例必须恰好属于一个类。在这种情况下,对类进行一次热编码是错误的,它可以简单地编码为 int(例如使用LabelEncoder)。该模型将始终为一个实例准确预测一个类,因此零类的情况是不可能的。
- 任务是多标签分类,即每个实例可以属于零个、一个或多个类。在这种情况下,可以预测一个实例根本不属于任何类,这是正常的。在这种情况下,混淆矩阵不应该用跨类的矩阵,因为类是独立的(顺便说一句,这不仅是关于零类的情况,多类的情况也无法以这种方式表示)。相反,每个独立类都应该有一个二元混淆矩阵。
其它你可能感兴趣的问题