我得到了一个数据集,其中包含自由格式的文本和与之关联的类别。有 100 个不同的类别,每个类别有 3000 条记录。目标是建立一个多类分类模型。我创建了一个包含 10,000 个输入特征/单词的简单神经网络,结果相当好(~88%)。
我面临的问题是我拥有一个未标记的数据集,它缺少类别标签。这个数据集非常大,有超过 100 个类别。我只对能够对我拥有的 100 个类别的未标记数据进行分类感兴趣,但我不知道如何处理这个问题。
我的一个想法是为标记数据建立一个词嵌入模型。该模型可用于计算未标记数据的文档向量,并从标记数据集中找到相似的文档。这将允许我为未标记数据集中的一些数据分配标签。有没有更好的方法来解决这个问题?