用关键字向量表示文档的方法

数据挖掘 nlp 词嵌入 类似文件 向量空间模型
2022-02-10 08:18:33

我有文件,例如D 1、 D 2、 D 3 ... D m

每个D i都有其单独的组件或关键字k 1 , k 2 , k 3 ,... k n,其中k i是一个 n 维向量。单个组件的数量因文档而异。

有什么方法可以找到D i的接近程度?或者使用关键字向量表示文档的最佳方式是什么?请注意,我在这里使用自定义嵌入。

2个回答

如果您有关键字的向量,则可以聚合这些向量以获得文档向量。最简单(也可能是最有效的方法之一)的方法是将关键字向量平均化以形成文档向量。获得每个文档的向量后,您可以使用余弦相似度等相似度度量来查看文档的接近程度。这种方法的一个典型例子是: 来源:https://www.slideshare.net/mobile/andrewkoo/word2vec-algorithm

编辑:另一个有趣的点是评估你是如何得到你的词向量的。请查看预训练的词嵌入,例如 word2vec、Glove 或 Fast Text。

听起来您正在尝试进行某种主题建模。我可能会推荐诸如潜在语义分析(LSA)、潜在狄利克雷分配(LDA)或潜在语义索引(LSI)之类的东西。LSA 对文档 x 关键字出现矩阵进行矩阵分解以提取显着主题。它可以让您找到文档之间的余弦相似度,就像您正在寻找的那样。我推荐这篇介绍论文正如这个 SO answer所暗示的那样,如果您希望使用 tf-idf ,也可以将其用作文档向量。