我收到了一个数据集,其中包含一串文本和一个标签,该标签将该文本分类为 50 个类别之一。我希望建立一个模型来预测一串文本属于哪个类别。
当数据集放在一起时,它是在每个文本字符串只能属于一个组的假设下组装的。实际上,文本可以同时属于多个组。
与其回到绘图板并再次手动标记数据,我想尝试将这个单标签数据集转换为多标签数据集。
我尝试了一种结果可疑的方法。我构建了一个线性回归,分别预测每个类别,并将这些预测附加到原始数据中。虽然这为我提供了我需要的结构中的数据,但它产生了乏善可陈的结果。大多数文本字符串仍然只属于一个类别(许多应该属于多个类别),而且很大一部分根本没有分配任何标签。
看来,即使我能把这些数据“弗兰肯斯坦”放在一起,也未必能作为优质的训练数据。我很好奇,有没有什么好方法可以将这个单标签数据转换成多标签数据?