多标签分配是机器学习中的任务,为每个输入值分配一组来自固定词汇表的类别,其中类别不需要在统计上独立,因此排除构建一组独立的分类器,每个分类器将输入分类为属于每个类别与否。
机器学习还需要一种可以评估模型的方法。所以这就是我们如何评估多标签分类器的问题?
我们不能使用正常的召回率、准确率和 F 度量,因为它们需要一个二进制是否正确或不度量每个分类。如果没有这样的衡量标准,我们就没有明显的方法来评估模型或衡量概念漂移。
多标签分配是机器学习中的任务,为每个输入值分配一组来自固定词汇表的类别,其中类别不需要在统计上独立,因此排除构建一组独立的分类器,每个分类器将输入分类为属于每个类别与否。
机器学习还需要一种可以评估模型的方法。所以这就是我们如何评估多标签分类器的问题?
我们不能使用正常的召回率、准确率和 F 度量,因为它们需要一个二进制是否正确或不度量每个分类。如果没有这样的衡量标准,我们就没有明显的方法来评估模型或衡量概念漂移。
你的直觉是正确的。我们确实使用其他指标进行多标签分类。评价本身的意义发生了变化。除了对分类器是否正确分类进行评分之外,如果它正确地选择了错误的类别,我们还必须对其进行惩罚。您可以使用以下指标:
即使使用二元分类器,一个数字也不能完全代表行为——混淆矩阵具有三个自由度。对于多类问题,最好打印我们的整个混淆矩阵。然后你可以挑出诸如“大类 A 分类好,许多 B 被错误归类为 C,少数 D 被错误分配给 A、B 或 C”之类的问题。
更好的是,打印混淆矩阵可以帮助您思考真正的业务目标是什么:这些错误中的哪些在实践中最重要?