连续词袋模型中的“连续”是什么意思?

人工智能 术语 图书 词袋 弓箭
2021-10-31 09:39:30

数学中的连续这个词是一个集合或一个函数的属性,它表示基础对象在提到的范围内没有不连续性。如果对象是一个集合,那么[1,1]是连续的一段时间{1,+1}不是。类似地,如果域中每个点的实际值和极限值相等,则称函数是连续的。

现在,来到 CBOW。我从Jacob Eisenstein的自然语言处理的 p:334 中阅读了以下声明

因此,CBOW 是一个词袋模型,因为上下文词的顺序无关紧要;它是连续的,因为我们不是以单词本身为条件,而是以从单词嵌入构造的连续向量为条件。

在这种情况下,连续是什么意思?连续向量是否代表实数向量?

1个回答

词袋模型 (BOW) 通常用于表示文本:您将所有词放在一起(就像放在袋子里一样),而不需要跟踪它们的顺序。这是对文本的粗略简化,因为单词排序在创建文本含义方面起着重要作用。但从积极的方面来说,它更容易处理,例如在信息检索任务中,您可能无论如何都不需要精确的含义。

因此 BOW 是离散的和象征性的,因为它通过包含在其中的一组单词来表示其每个元素。里面没有数字。您可以通过比较两个集合、它们的交集有多大以及两者之间的差异来计算两个项目的相似性。

CBOW 是一个轻微的修改:我们使用它们的向量表示来代替单词;而不是拥有n的向量n周围的词,它们都加起来(公式 14.14) 它仍然是一个 BOW,因为用于表示一个元素的词集现在是在一定距离内围绕它的词集(h)。使它连续的是从一组单词(即符号)到向量的转换。

他将此与循环神经网络进行对比,其中单词由一个状态向量表示,该向量在每个新单词之后都会更新,回到文本的开头。这将为出现在相同本地化上下文中的相同单词提供不同的表示,而 CBOW 将返回相同的表示。

例如,对于h为 1(为简单起见):

当一个词有了意义时,一个词就有了目的。

现在假设我们对word的编码感兴趣:在经常出现的情况下,第一个是when + a + word,而第二个是when + a + word + has + a + meaning + , + then + a +word- 这里的序列表示添加相应单词后网络的更新状态。

在 CBOW 情况下,两个单词的出现都由a + word + has(单词加/减一个单词两边,如h是 1)。所以它们将是相同的。

为了回答您的问题,连续在这里与离散符号相反,实际上是指数字向量。