Doc2Vec 使用哪种算法?

数据挖掘 Python nlp word2vec gensim 类似文件
2021-09-22 01:05:05

就像 Word2vec 不是单一的算法,而是两种算法的结合,即 CBOW 和 Skip-Gram 模型;Doc2Vec 也是任何此类算法的组合吗?或者它本身就是一种算法?

3个回答

Word2Vec 不是两个模型的组合,而是两个模型的变体 word2vec。同样,doc2vec 具有分布式内存(DM)模型和分布式词袋(DBOW)模型。基于上下文词和目标词,出现了这些变体。

注意:模型名称可能会混淆

  • Distriubted Bag of words 类似于 Skip-gram model
  • Distributed Memory 类似于 Continuous bag of words model

文档说:

通过[1]中的分布式内存和分布式词袋模型进行深度学习,使用分层 softmax 或负采样[2][3]

分布式内存模型保留文档中的词序,而分布式词袋仅使用词袋方法,不保留任何词序。

这已在本研究论文中详细解释。