我想知道如何在 gensim 中使用 doc2vec 标记(标记)句子/段落/文档 - 从实际的角度来看。
您是否需要让每个句子/段落/文档都有自己独特的标签(例如“Sent_123”)?如果您想说“哪些单词或句子与标记为“Sent_123”的单个特定句子最相似,这似乎很有用。
您可以根据内容重复标签吗?例如,如果每个句子/段落/文档都与某个产品项目有关(并且给定产品项目有多个句子/段落/文档),您是否可以根据项目标记句子,然后计算单词或单词之间的相似度句子和这个标签(我猜这就像所有与产品相关的句子的平均值)?