使用 Doc2Vec 对文档相似性进行预处理

数据挖掘 类似文件 doc2vec
2022-02-23 12:11:34

我正在尝试在大量法律意见中使用 Doc2Vec 确定文档相似性,其中可能包含一些高度专业的语言和短语(例如 en banc、de novo 等)。我想知道是否有人对我应该考虑的标准有任何想法,如果有的话,关于如何处理 Doc2Vec 中的复合词/短语以计算相似度。

如果我只是使用 tf-idf 或更简单的东西,我会考虑在预处理期间遍历每个短语并手动组合单词(例如:en-banc),但我不知道这是否有必要,因为嵌入考虑根据定义围绕一个词的上下文。

此外,这样做会显着增加导出文档相似度分数所需的时间,所以如果没有必要或不太可能剧烈地改变结果分数,我想避免这样做。短语中存在这种潜在的变化,并且在诸如此类的高度行话的文本中,它还可以显着减少以后创建的标记的数量。

我很感激任何人对此事的看法。谢谢!

0个回答
没有发现任何回复~