我有一个文档搜索算法返回的句子列表。我想使用某种度量来确定返回的结果在语义上是否接近/相似/连贯。作为起点,我使用 Word Movers Distance (WMD) 并计算句子之间的相似度。但是我的句子列表太长了,对列表(文档)中的所有项目进行成对比较在计算上是不可行的。解决此问题的最佳方法可能是什么?
如何找到大量句子之间的连贯性
数据挖掘
nlp
文本挖掘
推荐系统
词嵌入
相似
2022-03-16 04:30:40
1个回答
您可以使用具有更基本相似性度量的聚类,例如余弦,甚至简单地使用共同词的比例(例如 Jaccard、重叠系数)。这应该为您提供彼此“非常相似”的句子组,而不同集群中的句子应该是非常不同的。这样,您只需要计算较小的句子组之间的 WMD 距离。通过增加集群的数量,集群会更小,因此需要的 WMD 计算会更少,但是错过一对句子的风险更大,因为它们最终可能会出现在不同的集群中。