数据挖掘 - Doc2vec(gensim) - 如何计算最相似的句子并获得其标签？ - 吾爱随笔录

数据挖掘机器学习文本挖掘相似 word2vec

2022-03-08 12:25:45

我正在尝试使用 doc2vec(gensim) 来识别最相似的句子并获取其标签。也就是说，例如，当数据由 36 种电视组成时（每个句子解释一个特定的产品及其标签到该产品），doc2vec 对用户输入进行分类并决定用户指的是什么电视。

我只知道如何得到最相似的单词：model.most_similar('red/noun') 你怎么能得到最相似的句子及其标签而不是单词？

Doc2Vec - 如何标记段落（gensim）（这说明上述方法在 doc2vec 中实际上是可能的）

谢谢：）

1个回答

据我了解，您正在使用 TV 类型作为特定句子的标签，并且您正在使用doc2vec 模型进行未来分类。因此，正如上面的答案表明模型将学习TV(tag) 类型的语义含义。

假设s是你未来的预测句子。然后你使用推断向量。

模型 = Load_model('model.doc2vec')

infer_vector = model.infer_vector(s)

similar_documents = model.docvecs.most_similar([infer_vector], topn = 1)

这里类似的文档是元组列表。其中第一个元素是label。

让我知道这是否对您有帮助。

其它你可能感兴趣的问题