我正在尝试应用 word2vec/doc2vec 来查找类似的句子。首先考虑 word2vec 的单词相似度。我的理解是,CBOW 可用于在给定上下文的情况下找到最合适的单词,而 Skip-gram 用于在给定某个单词的情况下查找上下文,因此在这两种情况下,我都会得到经常同时出现的单词。但是如何找到相似的词呢?我的直觉是,由于相似的词往往出现在相似的上下文中,所以词的相似度实际上是从上下文/共现词之间的相似度来衡量的。在神经网络中,当隐藏层某个词的向量表示传递到输出层时,它会输出共现词的概率。所以,同现词会影响一些词的向量,因为相似词有相似的同现词集,它们的向量表示也相似。为了找到相似度,我们需要提取每个单词的隐藏层权重(或向量)并测量它们的相似度。我理解正确吗?
最后,使用 word2vec/doc2vec 查找推文文本(完整句子)相似度的好方法是什么?