我正在寻找词袋模型和向量空间模型之间的直观区别?词袋和向量空间模型之间是否存在任何关系。我尝试搜索,但找不到满意的答案。
词袋与向量空间模型?也有人问过,但没有得到满意的回答。
Bag of words 和 Vector 空间模型的区别
机器算法验证
机器学习
文本挖掘
向量场
2022-04-10 06:56:03
2个回答
我发现现有的答案非常具有误导性。
词向量(又名词嵌入)是来自概率语言模型的概念(参见 [1])。它描述了语言模型中单词之间的上下文相似性,并在VSM提出并成功应用于文本分类、文档摘要和信息检索的几十年后出现。
在向量空间模型中(参见 [2]),在 n 维空间中不是单词/词项被表示为向量,而是document。VSM 被构造为对于每个不同的一元词/术语具有单独的维度,存在于从文档集合中的所有 BOW 聚合的术语集合中。换句话说,在 VSM 中:不同的术语变成了维度,而不是词向量。文档是 VSM 中的向量,位于每个对应维度的相关术语权重处。
Bag-of-words (BOW),作为 IR 中的文档表示方法,不允许同一个单词的多个实例 - 但表示不同单词的无序列表,与它们在文档中的频率相关联(参见 [3])。
[1] Y. Bengio, R. Ducharme, P. Vincent, C. Janvin,神经概率语言模型,J. Mach。学。水库。3 (2003) 1137–1155。doi:10.1162/153244303322533223。
[2] G. Salton、A. Wong、C. Yang S.,用于自动索引的向量空间模型,Commun。ACM。18 (1975) 613–620。doi:10.1145/361219.361220。
[3] G. Salton,CS YANG,关于自动索引中术语值的规范,J. Doc。29 (1973) 351–372。doi:10.1108/eb026562。
请注意,单词“bag”表示多重集,即它允许每个单词有多个实例。因此:
- Bag of words表示文档中每个单词的计数。例如,在朴素贝叶斯中使用了这个简单的模型
- 词向量概括了词袋为文档中的每个词分配排名的想法。通常是出现次数,但也可以是另一个排名,例如 TF-IDF
请注意,文档术语矩阵 (DTM) 中的每一行都对应一个词向量。
其它你可能感兴趣的问题