每个观察具有多个标签的数据的文本分类

数据挖掘 分类 文本
2022-02-24 16:21:32

我有一个已被多人标记的推文数据集。所以列看起来像:

Tweet_ID、Coder_1_Classification、Coder_2_Classification 等。

这个想法是建立一个基于标签的推文分类器。我应该如何将这些数据输入到分类器中?我正在考虑采用多个响应,但有没有办法可以使用所有数据?

此外,有部分报道,所以不是每个贴标签的人都标记了每条推文。

2个回答

查看这篇关于多标签分类的博客文章。使用Multi Label Binarizer 对标签进行编码,然后在这些编码的标签上优化 sigmoid 上的二元交叉熵损失。

有不同的选择:

  • 多类分类:每条推文都可以标记几个类
  • 多数投票:每条推文都标有最常选择的类别
  • 将具有(太多)不同标签的推文视为模棱两可,并将其从数据集中删除
  • ...

此外,计算注释者间一致性通常很有用,因为这表明任务的主观性以及预测的准确程度。