多标签数据准确性的衡量标准是什么?

机器算法验证 机器学习 数据挖掘 多标签
2022-01-29 14:08:20

考虑一个为您提供 KnownLabel 矩阵和 PredictedLabel 矩阵的场景。我想根据 KnownLabel 矩阵来衡量 PredictedLabel 矩阵的优劣。

但这里的挑战是 KnownLabel 矩阵只有几行只有一个 1,而其他几行有很多 1(这些实例是多标记的)。下面给出了一个 KnownLabel 矩阵的例子。

A =[1 0 0 0
    0 1 0 0
    0 1 1 0
    0 0 1 1
    0 1 1 1]

在上面的矩阵中,数据实例1和2是单标签数据,数据实例3和4是两个标签数据,数据实例5是三个标签数据。

现在我有使用算法的数据实例的 PredictedLabel 矩阵。

我想知道可用于衡量 PredictedLabel 矩阵相对于 KnownLabel 矩阵的优劣的各种度量。

我可以将它们之间的 frobeinus 范数差异视为衡量标准之一。但我正在寻找诸如准确性之类的衡量标准(=Correctly_predicted_instancetotal_instance)

在这里我们如何定义Correctly_predicted对于多个数据实例?

3个回答

(1) 给出了一个很好的概述:

在此处输入图像描述

在此处输入图像描述

维基百科页面 n 多标签分类也包含有关评估指标的部分。

我要添加一个警告,即在多标签设置中,准确性是不明确的:它可能指的是精确匹配率或汉明分数(参见这篇文章)。不幸的是,许多论文使用术语“准确性”。


(1) Sorower, Mohammad S.“关于多标签学习算法的文献调查。 ”俄勒冈州立大学,科瓦利斯 (2010)。

汉明损失可能是多标签分类中使用最广泛的损失函数。

查看Empirical Studies on Multi-label ClassificationMulti-Label Classification: An Overview,两者都对此进行了讨论。

Correctly Predicted是建议标签集和预期标签集之间的交集。Total Instances是上述集合的并集(无重复计数)。

因此,给定一个示例,您可以在其中预测类A, G, E,并且测试用例具有E, A, H, P正确的结果Accuracy = Intersection{(A,G,E), (E,A,H,P)} / Union{(A,G,E), (E,A,H,P)} = 2 / 5