检测相关句子

数据挖掘 数据挖掘 nlp 文本挖掘
2022-02-12 08:51:18

这个问题与“如何根据初始关键字增长相关词列表?”有关。

在上一个问题中,他们试图获得与给定单词相似的单词。但是,我有兴趣知道对句子执行此操作的可能性。

由于我不熟悉这个领域,我的问题是:

有没有办法用句子来做到这一点(不只考虑单词)?有哪些可用的工具?

2个回答

Word Mover 的距离 (WMD)是一种用于查找字符串对之间距离的算法。它基于单词嵌入(例如 word2vec),将单词的语义含义编码为密集向量。

WMD 距离衡量两个文本文档之间的差异,作为一个文档的嵌入词需要“旅行”以到达另一个文档的嵌入词的最小距离量。

例如:

在此处输入图像描述 资料来源:“从词嵌入到文档距离”论文

gensim有一个WMD 实现

使用 python 包Fuzzy Wuzzy也很有用

它使用来自 python-Levenshtein 包的 Levenshtein 距离,并为您提供重新排列或使用单词标记的不同选项。