Doc2vec(gensim) - 如何计算最相似的句子并获得其标签?

数据挖掘 机器学习 文本挖掘 相似 word2vec
2022-03-08 12:25:45

我正在尝试使用 doc2vec(gensim) 来识别最相似的句子并获取其标签。也就是说,例如,当数据由 36 种电视组成时(每个句子解释一个特定的产品及其标签到该产品),doc2vec 对用户输入进行分类并决定用户指的是什么电视。

我只知道如何得到最相似的单词:model.most_similar('red/noun') 你怎么能得到最相似的句子及其标签而不是单词?

Doc2Vec - 如何标记段落(gensim)(这说明上述方法在 doc2vec 中实际上是可能的)

谢谢 :)

1个回答

据我了解,您正在使用 TV 类型作为特定句子的标签,并且您正在使用doc2vec 模型进行未来分类。因此,正如上面的答案表明模型将学习TV(tag) 类型的语义含义

假设s是你未来的预测句子。然后你使用推断向量

模型 = Load_model('model.doc2vec')

infer_vector = model.infer_vector(s)

similar_documents = model.docvecs.most_similar([infer_vector], topn = 1)

这里类似的文档是元组列表。其中第一个元素是label

让我知道这是否对您有帮助。