将多标签问题转换为多类问题

数据挖掘 多类分类 多标签分类
2021-10-10 03:21:34

将多标签问题建模为具有单个分类器的多类问题有什么缺点?

让我澄清一下我的意思。

至少有两种方法可以将一个多标签问题转换为具有单个分类器的多类问题(假设我们的问题有 N 个标签):

1)

为标签的幂集的每个元素创建一个类。

因此,每个元素为每个标签组合。

在这种情况下,输出向量将具有 2N 长度。

2)

有一个输出向量 N 长度(向量的每个元素都将是一个标签),但该问题将被视为具有一个分类器的多类问题。

在这种情况下,假设输出概率大于 0.2 的类将被视为该实例/观察的类/标签。

显然,所有类的输出概率之和应为 1。


在每种情况下,将多标签问题转换为多类问题的含义是什么?

1个回答

多标签问题是当一个实例可以有多个标签时,例如按主题分类新闻文章的系统可以这样做:

  • 实例1:政治、社会
  • 实例2:运动
  • 实例三:文化、体育
  • 实例4:社会
  • ...

要将其转变为多类问题并仍然执行完全相同的任务,需要为数据中存在的每个可能的子集创建一个类,例如:

{ politics-society, sports, culture-sports, society, ...}

如果原始多标签问题包含 N 标签,多类问题中的类数是 2N 在最坏的情况下(集合的分区数)。

主要问题是分类器需要每个类的代表性样本才能表现良好。从分类器的角度来看,类sportsculture-sports(例如)现在是独立的,因此类sport不能再从属于 的实例中受益culture-sports,就像多标签问题中的情况一样。

因此,一般来说,训练多类分类器比训练多标签分类器需要更多的实例来做同样的事情。