为什么要平均 word2vec 中所需的向量?

数据挖掘 词嵌入 word2vec gensim
2021-09-21 10:32:39

在通过在线遵循一些教程使用 gensim 实现 word2vec 时,我无法理解的一件事是,一旦模型被训练,词向量就会被平均化的原因。下面的几个示例链接。

  1. https://www.kaggle.com/ananyabioinfo/text-classification-using-word2vec/notebook?scriptVersionId=11358361&cellId=7

  2. https://www.kaggle.com/varun08/sentiment-analysis-using-word2vec?scriptVersionId=2185653&cellId=15

我的问题是:

  1. 是否只是创建单个向量而不是维度大小的向量或提高准确性,或者这背后有什么原因?
  2. 是否必须对向量进行平均,或者是否有任何替代方法。

我已经阅读了关于 word2vec 的原始论文,但这并没有给出明确的解释。

1个回答

对段落或文档中单词的嵌入向量进行平均的原因是为了获得一个代表整个文本的固定大小的向量。然后,文档级向量可以用作文档分类模型或任何其他文档级模型的输入。

如果您明确想要计算单词级别的表示,然后将它们组合成文档/段落级别的表示,那么平均是标准方法。

另一方面,一般来说,为了获得文档/段落/句子级别的表示,有许多组合词级别向量的替代方案。一些显着的例子包括用于段落/文档级别的doc2vec ,或用于句子级别表示的LASERBERT 。