从文本列中查找匹配的文本

数据挖掘 机器学习 Python nlp 文本挖掘
2021-09-16 07:10:48

这是我第一次使用数据分析工具来找出问题的解决方案。我有一个包含以下列的表格Person ID, Person Name, Note ID, Note (notes is a free form text where a call representative can enter their comments) Insert User我已获得key phrases要从该列中识别的Note列表。这些关键短语采用句子格式。例子:在此处输入图像描述

我必须从这些笔记中找到准确或相似的匹配短语。我的最终报告的格式看起来像这样 在此处输入图像描述

我查看了几篇与文本匹配相关的文章,其中建议了一些选项,例如

模糊,Doc2vec,Difflib,python-levenshtein

这一切都如此令人困惑。即使我有一个初学者来选择最合适的选项,我也可以从那里拿走它。有什么建议?太感谢了!

1个回答

您建议的问题是文本摘要问题。它可以是两种类型:抽象的——理解文本分布,然后产生一个摘要,提取——从文本中提取特定的词来产生一个摘要。显然,您的问题属于后一类。此外,由于您有要生成的标签,因此这是一个有监督的文本摘要问题。看看这篇关于算法的论文。它为类似问题提出了两种解决方案,您当然必须对它们进行一些修改,看看哪一种最适合您。祝你好运。