我有文件,例如D 1、 D 2、 D 3 ... D m。
每个D i都有其单独的组件或关键字k 1 , k 2 , k 3 ,... k n,其中k i是一个 n 维向量。单个组件的数量因文档而异。
有什么方法可以找到D i的接近程度?或者使用关键字向量表示文档的最佳方式是什么?请注意,我在这里使用自定义嵌入。
我有文件,例如D 1、 D 2、 D 3 ... D m。
每个D i都有其单独的组件或关键字k 1 , k 2 , k 3 ,... k n,其中k i是一个 n 维向量。单个组件的数量因文档而异。
有什么方法可以找到D i的接近程度?或者使用关键字向量表示文档的最佳方式是什么?请注意,我在这里使用自定义嵌入。
听起来您正在尝试进行某种主题建模。我可能会推荐诸如潜在语义分析(LSA)、潜在狄利克雷分配(LDA)或潜在语义索引(LSI)之类的东西。LSA 对文档 x 关键字出现矩阵进行矩阵分解以提取显着主题。它可以让您找到文档之间的余弦相似度,就像您正在寻找的那样。我推荐这篇介绍论文。正如这个 SO answer所暗示的那样,如果您希望使用 tf-idf ,也可以将其用作文档向量。