我有一个已被多人标记的推文数据集。所以列看起来像:
Tweet_ID、Coder_1_Classification、Coder_2_Classification 等。
这个想法是建立一个基于标签的推文分类器。我应该如何将这些数据输入到分类器中?我正在考虑采用多个响应,但有没有办法可以使用所有数据?
此外,有部分报道,所以不是每个贴标签的人都标记了每条推文。
我有一个已被多人标记的推文数据集。所以列看起来像:
Tweet_ID、Coder_1_Classification、Coder_2_Classification 等。
这个想法是建立一个基于标签的推文分类器。我应该如何将这些数据输入到分类器中?我正在考虑采用多个响应,但有没有办法可以使用所有数据?
此外,有部分报道,所以不是每个贴标签的人都标记了每条推文。
查看这篇关于多标签分类的博客文章。使用Multi Label Binarizer 对标签进行编码,然后在这些编码的标签上优化 sigmoid 上的二元交叉熵损失。
有不同的选择:
此外,计算注释者间一致性通常很有用,因为这表明任务的主观性以及预测的准确程度。