我有一组类别,我想将文档向量与类别的词向量进行比较以找到最佳匹配类别。
是否可以将单词向量与文档向量进行比较?如果是,是否有任何文献为此提供概念证明?
我有一组类别,我想将文档向量与类别的词向量进行比较以找到最佳匹配类别。
是否可以将单词向量与文档向量进行比较?如果是,是否有任何文献为此提供概念证明?
在段落向量中,向量试图通过将向量本身放置在每个上下文中来掌握上下文中所有单词的语义。因此,最后,段落向量包含训练的上下文中所有单词的语义。
当我们将其与 word2vec 进行比较时,word2vec 中的每个单词都保留了自己的语义。因此,对所有向量求和或对它们求平均将得到一个可以保留所有语义的向量。这是明智的,因为当我们添加向量(运输+水)时,结果几乎等于船或船,这意味着对向量求和就可以总结语义。
在段落向量论文发表之前,人们使用平均词向量作为句子向量。老实说,在我的工作中,这些平均向量比文档向量更有效。因此,考虑到这些事情,可以通过这种方式进行比较。