我正在尝试使用 doc2vec(gensim) 来识别最相似的句子并获取其标签。也就是说,例如,当数据由 36 种电视组成时(每个句子解释一个特定的产品及其标签到该产品),doc2vec 对用户输入进行分类并决定用户指的是什么电视。
我只知道如何得到最相似的单词:model.most_similar('red/noun') 你怎么能得到最相似的句子及其标签而不是单词?
Doc2Vec - 如何标记段落(gensim)(这说明上述方法在 doc2vec 中实际上是可能的)
谢谢 :)
我正在尝试使用 doc2vec(gensim) 来识别最相似的句子并获取其标签。也就是说,例如,当数据由 36 种电视组成时(每个句子解释一个特定的产品及其标签到该产品),doc2vec 对用户输入进行分类并决定用户指的是什么电视。
我只知道如何得到最相似的单词:model.most_similar('red/noun') 你怎么能得到最相似的句子及其标签而不是单词?
Doc2Vec - 如何标记段落(gensim)(这说明上述方法在 doc2vec 中实际上是可能的)
谢谢 :)
据我了解,您正在使用 TV 类型作为特定句子的标签,并且您正在使用doc2vec 模型进行未来分类。因此,正如上面的答案表明模型将学习TV(tag) 类型的语义含义。
假设s是你未来的预测句子。然后你使用推断向量。
模型 = Load_model('model.doc2vec')
infer_vector = model.infer_vector(s)
similar_documents = model.docvecs.most_similar([infer_vector], topn = 1)
这里类似的文档是元组列表。其中第一个元素是label。
让我知道这是否对您有帮助。