数据挖掘 - 词嵌入如何用于词的相似性？ - 吾爱随笔录

我正在尝试应用 word2vec/doc2vec 来查找类似的句子。首先考虑 word2vec 的单词相似度。我的理解是，CBOW 可用于在给定上下文的情况下找到最合适的单词，而 Skip-gram 用于在给定某个单词的情况下查找上下文，因此在这两种情况下，我都会得到经常同时出现的单词。但是如何找到相似的词呢？我的直觉是，由于相似的词往往出现在相似的上下文中，所以词的相似度实际上是从上下文/共现词之间的相似度来衡量的。在神经网络中，当隐藏层某个词的向量表示传递到输出层时，它会输出共现词的概率。所以，同现词会影响一些词的向量，因为相似词有相似的同现词集，它们的向量表示也相似。为了找到相似度，我们需要提取每个单词的隐藏层权重（或向量）并测量它们的相似度。我理解正确吗？

最后，使用 word2vec/doc2vec 查找推文文本（完整句子）相似度的好方法是什么？