词向量到句子向量

数据挖掘 nlp word2vec 词嵌入
2021-10-02 01:59:00

如何使用句子中单词的向量来获取该句子的向量。我使用了诸如平均单个单词向量或单词的 tf-idf 加权组合之类的策略。虽然这些 hack 有效,但它们存在明显的问题。想知道有什么其他方法可以做到这一点

3个回答

本文描述了一种最先进的方法(无监督平滑逆频率),您可以在此处找到该方法实现

有 doc2vec 算法是 word2vec 的修改 - 由同一作者,论文:https ://arxiv.org/pdf/1405.4053v2.pdf

它在 gensim https://radimrehurek.com/gensim/models/doc2vec.html中实现

其他答案中提到的方法仅适用于大句子,因为它们不保留句子结构。使用词向量学习整个句子的组合性的最先进模型是递归神经网络。这也保留了单词的顺序,因此也可以用于较短的句子。您可以在原始论文或相同的讲座中看到更多关于它们的信息。对于递归神经网络的 tensorflow 实现,请看这里