在分类算法中使用词嵌入作为特征?

数据挖掘 分类 nlp 词嵌入 word2vec tfidf
2022-02-18 11:50:12

我看到有一些方法可以通过取平均值或加权平均值来组合词向量以形成文档。然而,作为平均的结果,存在信息丢失。有没有办法按原样保留文档的词嵌入并将其用作分类算法的输入?

1个回答

有很多选择。这里有几个建议:

  • 根据分类器任务学习向量的加权平均值。Grupta 等人的“用于文本分类表示的任务优化词嵌入”。详细介绍。

  • 将每个词嵌入分别输入到分类器中。

  • 训练嵌入整个文档的新嵌入模型(例如,doc2vec)。