数据挖掘 - 每个观察具有多个标签的数据的文本分类 - 吾爱随笔录

数据挖掘分类文本

2022-02-24 16:21:32

我有一个已被多人标记的推文数据集。所以列看起来像：

Tweet_ID、Coder_1_Classification、Coder_2_Classification 等。

这个想法是建立一个基于标签的推文分类器。我应该如何将这些数据输入到分类器中？我正在考虑采用多个响应，但有没有办法可以使用所有数据？

此外，有部分报道，所以不是每个贴标签的人都标记了每条推文。

2个回答

查看这篇关于多标签分类的博客文章。使用Multi Label Binarizer 对标签进行编码，然后在这些编码的标签上优化 sigmoid 上的二元交叉熵损失。

有不同的选择：

此外，计算注释者间一致性通常很有用，因为这表明任务的主观性以及预测的准确程度。

其它你可能感兴趣的问题