多标签和多标签多类分类有什么区别?

数据挖掘 机器学习 多类分类 多标签分类
2022-02-21 21:25:36

我正在尝试将新闻文章分类到所需的类别中。但是,我对上述(多标签和多标签多类)术语感到困惑。我的数据集由 2 个 csv 文件组成。第一个文件包含新闻文章的内容。同一对应行号中的第二个文件由与其关联的标签组成。这是第二个文件中的示例条目,即标签文件:

在此处输入图像描述

因此,对于第 1 行,第一个 csv 文件包含标记为运动和足球的新闻文章。同样对于第 2 行,第一个 csv 中的文章具有标签运动和媒体。我的问题是,这个数据集是多标签还是多标签多类?它们之间有什么区别?

1个回答

多类分类是指具有两个以上类的分类任务;例如,对一组可能是橙子、苹果或梨的水果图像进行分类。多类分类假设每个样本都分配给一个且只有一个标签:水果可以是苹果或梨,但不能同时是两者。

多标签分类为每个样本分配一组目标标签。这可以被认为是预测不互斥的数据点的属性,例如与文档相关的主题。一篇文章可能同时涉及任何宗教、政治、金融或教育,也可能不涉及这些。

多输出多类(或多标签多类)分类意味着单个估计器必须处理多个联合分类任务。这既是对只考虑二分类的多标签分类任务的泛化,也是对多类分类任务的泛化。输出格式是 2d numpy 数组或稀疏矩阵。

由于您的数据的每个对象可以同时分类为一个到多个标签,这是一个简单的多标签分类问题

取自:https ://scikit-learn.org/stable/modules/multiclass.html