来自官方 doc2vec 论文“Distributed Representations of Sentences and Documents”对 PV-DBOW 的解释如下:
另一种方法是忽略输入中的上下文词,但强制模型预测从输出中的段落中随机采样的词。实际上,这意味着在随机梯度下降的每次迭代中,我们采样一个文本窗口,然后从文本窗口中采样一个随机单词,并在给定段落向量的情况下形成一个分类任务。
根据论文,不存储词向量,据说 PV-DBOW 的工作方式类似于 word2vec 中的 skip gram。
在word2vec 参数学习中解释了 Skip-gram 。在skip gram模型中,词向量被映射到隐藏层。执行此映射的矩阵在训练期间更新。在 PV-DBOW 中,隐藏层的维度应该是一个段落向量的维度。当我想将采样示例的词向量与段落向量相乘时,它们应该具有相同的大小。单词的原始表示是大小(词汇大小 x 1)。执行哪个映射以在隐藏层中获得正确的大小(段落维度 x 1)。当没有存储词向量时,这个映射是如何进行的呢?我假设单词和段落表示在隐藏层中应该具有相同的大小,因为公式26