数据挖掘 - 使用 Doc2Vec 对文档相似性进行预处理 - 吾爱随笔录

我正在尝试在大量法律意见中使用 Doc2Vec 确定文档相似性，其中可能包含一些高度专业的语言和短语（例如 en banc、de novo 等）。我想知道是否有人对我应该考虑的标准有任何想法，如果有的话，关于如何处理 Doc2Vec 中的复合词/短语以计算相似度。

如果我只是使用 tf-idf 或更简单的东西，我会考虑在预处理期间遍历每个短语并手动组合单词（例如：en-banc），但我不知道这是否有必要，因为嵌入考虑根据定义围绕一个词的上下文。

此外，这样做会显着增加导出文档相似度分数所需的时间，所以如果没有必要或不太可能剧烈地改变结果分数，我想避免这样做。短语中存在这种潜在的变化，并且在诸如此类的高度行话的文本中，它还可以显着减少以后创建的标记的数量。

我很感激任何人对此事的看法。谢谢！