Word2Vec 和 Doc2Vec 是分布式表示还是分布式表示?

数据挖掘 nlp 词嵌入 术语 word2vec
2021-09-26 07:01:18

我读过分布式表示基于分布假设,即在相似上下文中出现的单词往往具有相似的含义。

Word2Vec 和 Doc2Vec 都是根据这个假设建模的。但是,在原始论文中,即使它们被命名为Distributed representation of words and phrasesand Distributed representation of sentences and documents那么,这些算法是基于分布式表示还是分布式表示。

LDA 和 LSA 等其他模型怎么样。

3个回答

实际上,Word2Vec/Doc2Vec 是基于distributional hypothesis每个单词的上下文是其附近单词的位置。同样,LSA 将整个文档作为上下文。这两种技术都解决了这个word embedding问题——将单词嵌入到一个连续的向量空间中,同时保持语义相关的单词靠近。

另一方面,LDA 并不是为了解决同样的问题。他们处理一个称为 的不同问题topic modeling,即在一组文档中查找潜在主题。

安德烈·库图佐夫通过谷歌群组的回复感觉令人满意

我会说 word2vec 算法基于两者。

当人们说distributional representation时,他们通常指的是语言方面:意义就是上下文,通过它的公司和其他名言来认识这个词。

但是当人们说它时distributed representation,它大多与语言学无关。它更多地是关于计算机科学方面的。如果我正确理解 Mikolov 和其他人, distributed他们论文中的这个词意味着向量表示的每个单个组件都没有任何自身的含义。可解释的特征(例如 word2vec 中的词上下文)隐藏distributed在不可解释的向量组件中:每个组件负责几个可解释的特征,每个可解释的特征都绑定到几个组件。

因此,word2vec(和 doc2vec)在技术上使用分布式表示,作为表示词汇语义的一种方式。同时它在概念上基于分布假设:它之所以有效,是因为分布假设是正确的(词义确实与它们的典型上下文相关)。

但当然,这些术语distributed和经常distributional互换使用,增加了误解:)

Turian、Joseph、Lev Ratinov 和 Yoshua Bengio。词表示:一种简单而通用的半监督学习方法。” 计算语言学协会第 48 届年会论文集。计算语言学协会,2010。定义分布表示和分布表示如下:

  • 分布式词表示基于同现矩阵F大小的W×C, 在哪里W是词汇量,每一行Fw是单词的初始表示w, 和每一列 FC是一些上下文。Sahlgren (2006) 和 Turney 和 Pantel (2010) 描述了一些可能的设计决策F,包括上下文类型的选择(左窗口?右窗口?窗口大小?)和频率计数类型(原始?二进制?tf-idf?)。Fw有维度W, 它可能太大而无法使用Fw作为监督模型中单词 w 的特征。一个可以映射F到大小为 W × d 的矩阵 f,其中d<<C,使用某个函数 g,其中 f = g(F)。Fw代表词 w作为一个向量d方面。的选择G是另一个设计决策,尽管可能不如最初构建时使用的统计数据重要F.

  • 分布式表示是密集的、低维的和实值的。分布式词表示称为词嵌入。嵌入的每个维度都代表了单词的一个潜在特征,希望能捕捉到有用的句法和语义属性。分布式表示是紧凑的,因为它可以表示在维数上呈指数级的簇。

仅供参考:词向量、词表示和向量嵌入之间有什么区别?