数据挖掘 - 多类分类的评价方法 - 吾爱随笔录

多类分类的评价方法

数据挖掘机器学习神经网络深度学习多类分类评估

2021-10-13 00:14:38

我正在寻找可用于考虑不平衡数据集的多类分类任务的单数评估方法。例如，ROC-AUC由二元分类器定义的，是一个单一的数字，并考虑了不平衡的数据集。另一方面，准确度是单数，为多类分类器定义，没有考虑不平衡的数据集。最后，混淆矩阵是为多类定义的，考虑到这一点但不是单数。有满足这三个条件的评价方法吗？

3个回答

在https://www.sciencedirect.com/science/article/pii/S004896971831163X?via%3Dihub中，我们使用了对每个类别获得的第 i 类灵敏度的乘积（即正确分类为第 i 类的数据的比率）班级。这将这些值汇总为一个索引，该索引的范围在 0 和 1 之间，并且在某种程度上与数据不平衡无关。这种方法在每个类别的误差之间产生了良好的平衡，因为任何明显低于 1 的值都会显着降低性能。为了放松这一点，您可以简单地使用（按递增顺序）在 1 个或多个类别中允许更大的错误：最小值、几何平均值或算术平均值。在https://ieeexplore.ieee.org/document/6940273/和https://ieeexplore.ieee.org/abstract/document/5428802/你可以找到这些替代品。祝你好运。拉斐尔。

加权对数损失怎么样？

可以说我们有 $m$ 班级 $c_1, \dots, c_m$ . 我们可以给每一堂课 $c_i$ 一个重量 $w_i$ 这与属于的数据集的百分比成反比 $c_i$ . 然后，一些具有实际类的数据集的损失 $y = y_1, \dots, y_n$ 和预测 $\hat{y} = \hat{y}_1, \dots, \hat{y}_n$ 可以定义为

损失 (是的, \hat{是的}) = \frac{1}{米 n} \sum_{j = 1}^{n} \sum_{一世 = 1}^{米} w_{一世} {一世}_{({是的}_{j} == 一世)} 日志 ({\hat{是的}}_{j})

$\text{loss}(y, \hat{y}) = \frac{1}{mn} \sum_{j=1}^n\sum_{i=1}^m w_i {I}_{(y_j == i)}\text{log}(\hat{y}_j)$

在哪里 ${I}_{(y_j == i)}$ 是一个指示函数，如果 $y_j == i$ 否则为 0。

一个缺点是，给定损失函数的某个值，损失函数的特定值有多好并不是很明显。但是，比较两个值很容易（越低越好）。

你必须使用F1分数。一个简单的解决方案是使用混淆矩阵。你可以找到F1每门课的分数的方法很简单。每个类的真实标签可以被视为真实预测，其余被错误分类为其他类的标签应添加以指定错误预测的数量。对于每个班级，您都可以找到F1分数。有关更多详细信息，请查看F1-score per class for multi-class classification。你可以看看这个实现。

其它你可能感兴趣的问题

上一篇pandas 有没有办法将 NA 字段作为字符串而不是 NaN 导入？下一篇我的 Keras 双向 LSTM 模型给出了糟糕的预测