在我为 doc2vec 培训找到的所有示例中,文档都带有唯一标签。当许多文档共享相同的标签时会发生什么?
gensim 的 TaggedDocument 接受相同文本的列表标签。这意味着我们可以为同一文本有多个标签。但是,我不清楚在同一标签下使用零散的文本是否是一种好习惯。您仍然可以训练并获得嵌入。但他们好吗?
例如,我在这里发布的问题有标题、详细描述和标签列表。如何为 doc2vec 建模以查找类似问题?
请注意,某些标签不在标题或描述中。将它们包含在 doc2vec 培训中的最佳方式是什么。将它们洗牌并与标题和描述连接?还是将它们作为单独的条目保存在同一标签下?