数据挖掘 - Word2Vec 和 Doc2Vec 是分布式表示还是分布式表示？ - 吾爱随笔录

Word2Vec 和 Doc2Vec 是分布式表示还是分布式表示？

数据挖掘 nlp 词嵌入术语 word2vec

2021-09-26 07:01:18

我读过分布式表示基于分布假设，即在相似上下文中出现的单词往往具有相似的含义。

Word2Vec 和 Doc2Vec 都是根据这个假设建模的。但是，在原始论文中，即使它们被命名为Distributed representation of words and phrasesand Distributed representation of sentences and documents。那么，这些算法是基于分布式表示还是分布式表示。

LDA 和 LSA 等其他模型怎么样。

3个回答

实际上，Word2Vec/Doc2Vec 是基于distributional hypothesis每个单词的上下文是其附近单词的位置。同样，LSA 将整个文档作为上下文。这两种技术都解决了这个word embedding问题——将单词嵌入到一个连续的向量空间中，同时保持语义相关的单词靠近。

另一方面，LDA 并不是为了解决同样的问题。他们处理一个称为的不同问题topic modeling，即在一组文档中查找潜在主题。

安德烈·库图佐夫通过谷歌群组的回复感觉令人满意

我会说 word2vec 算法基于两者。

当人们说distributional representation时，他们通常指的是语言方面：意义就是上下文，通过它的公司和其他名言来认识这个词。

但是当人们说它时distributed representation，它大多与语言学无关。它更多地是关于计算机科学方面的。如果我正确理解 Mikolov 和其他人， distributed他们论文中的这个词意味着向量表示的每个单个组件都没有任何自身的含义。可解释的特征（例如 word2vec 中的词上下文）隐藏distributed在不可解释的向量组件中：每个组件负责几个可解释的特征，每个可解释的特征都绑定到几个组件。

因此，word2vec（和 doc2vec）在技术上使用分布式表示，作为表示词汇语义的一种方式。同时它在概念上基于分布假设：它之所以有效，是因为分布假设是正确的（词义确实与它们的典型上下文相关）。

但当然，这些术语distributed和经常distributional互换使用，增加了误解:)

Turian、Joseph、Lev Ratinov 和 Yoshua Bengio。“词表示：一种简单而通用的半监督学习方法。” 计算语言学协会第 48 届年会论文集。计算语言学协会，2010。定义分布表示和分布表示如下：

分布式词表示基于同现矩阵 $F$ 大小的 $W×C$ ，在哪里 $W$ 是词汇量，每一行 $F_w$ 是单词的初始表示 $w$ , 和每一列 $F_c$ 是一些上下文。Sahlgren (2006) 和 Turney 和 Pantel (2010) 描述了一些可能的设计决策 $F$ ，包括上下文类型的选择（左窗口？右窗口？窗口大小？）和频率计数类型（原始？二进制？tf-idf？）。 $F_w$ 有维度 $W$ , 它可能太大而无法使用 $F_w$ 作为监督模型中单词 w 的特征。一个可以映射 $F$ 到大小为 W × d 的矩阵 f，其中 $d << C$ ，使用某个函数 g，其中 f = g(F)。 $F_w$ 代表词 $w$ 作为一个向量 $d$ 方面。的选择 $g$ 是另一个设计决策，尽管可能不如最初构建时使用的统计数据重要 $F$ .

分布式表示是密集的、低维的和实值的。分布式词表示称为词嵌入。嵌入的每个维度都代表了单词的一个潜在特征，希望能捕捉到有用的句法和语义属性。分布式表示是紧凑的，因为它可以表示在维数上呈指数级的簇。

仅供参考：词向量、词表示和向量嵌入之间有什么区别？

其它你可能感兴趣的问题

上一篇协同过滤的基准数据集下一篇纳斯达克交易数据