词袋模型 (BOW) 通常用于表示文本:您将所有词放在一起(就像放在袋子里一样),而不需要跟踪它们的顺序。这是对文本的粗略简化,因为单词排序在创建文本含义方面起着重要作用。但从积极的方面来说,它更容易处理,例如在信息检索任务中,您可能无论如何都不需要精确的含义。
因此 BOW 是离散的和象征性的,因为它通过包含在其中的一组单词来表示其每个元素。里面没有数字。您可以通过比较两个集合、它们的交集有多大以及两者之间的差异来计算两个项目的相似性。
CBOW 是一个轻微的修改:我们使用它们的向量表示来代替单词;而不是拥有n的向量n周围的词,它们都加起来(公式 14.14) 它仍然是一个 BOW,因为用于表示一个元素的词集现在是在一定距离内围绕它的词集(h)。使它连续的是从一组单词(即符号)到向量的转换。
他将此与循环神经网络进行对比,其中单词由一个状态向量表示,该向量在每个新单词之后都会更新,回到文本的开头。这将为出现在相同本地化上下文中的相同单词提供不同的表示,而 CBOW 将返回相同的表示。
例如,对于h为 1(为简单起见):
当一个词有了意义时,一个词就有了目的。
现在假设我们对word的编码感兴趣:在经常出现的情况下,第一个是when + a + word
,而第二个是when + a + word + has + a + meaning + , + then + a +word
- 这里的序列表示添加相应单词后网络的更新状态。
在 CBOW 情况下,两个单词的出现都由a + word + has
(单词加/减一个单词两边,如h是 1)。所以它们将是相同的。
为了回答您的问题,连续在这里与离散或符号相反,实际上是指数字向量。