我要解决的问题是将短文本分类为多个类。我目前的方法是使用 tf-idf 加权词频并学习一个简单的线性分类器(逻辑回归)。这工作得相当好(在测试集上大约 90% 的宏 F-1,在训练集上接近 100%)。一个大问题是看不见的单词/n-gram。
我试图通过添加其他特征来改进分类器,例如使用分布相似性(由 word2vec 计算)或示例的其他分类特征计算的固定大小的向量。我的想法是将特征添加到词袋中的稀疏输入特征中。但是,这会导致测试集和训练集的性能变差。附加功能本身在测试集上提供了大约 80% 的 F-1,因此它们不是垃圾。缩放功能也没有帮助。我目前的想法是,这些特征与(稀疏的)词袋特征不能很好地混合。
所以问题是:假设附加功能提供了附加信息,那么合并它们的最佳方式是什么?是否可以训练单独的分类器并将它们组合在某种集成工作中(这可能会有一个缺点,即无法捕获不同分类器的特征之间的交互)?我应该考虑其他更复杂的模型吗?