信息检索的词嵌入 - 文档搜索?

数据挖掘 nlp 文本挖掘 word2vec 信息检索
2022-02-19 12:02:38

有什么好方法可以为单个句子(查询)找到最相似的文档(文本)。我问自己词向量(文档的加权平均值)是否适合将单个句子映射到整个文档?

1个回答

Doc2Vec 正在采用可能的方法。有了这个,模型学会了将相似的句子“聚集”在一起。

在此处输入图像描述

最简单的方法是聚合词向量,但忽略词的顺序。一些方法的详细信息:

https://towardsdatascience.com/sentence-embedding-3053db22ea77 https://medium.com/explorations-in-language-and-learning/how-to-obtain-sentence-vectors-2a6d88bd3c8b