从单个文档中提取关键短语

数据挖掘 nlp
2021-10-09 15:03:57

我需要从单个文档中提取相关的关键短语。由于我没有很多文档,TF-IDF 并没有真正起作用。

目前我正在使用 TextRank。它产生了不错的结果——一些非常好的短语以及很多垃圾。

有没有更好的算法可以用于此?谁能给我一个可用选项的概要?

实际用例:我正在开发一个知识库附带的帮助台应用程序(一堆文章,将其视为常见问题解答)。当用户编写新的支持票时,我想提取关键短语并找到最相关的知识库文章。总体而言,没有足够的数据来训练模型。我需要比较我认为的关键短语集。

1个回答

与您的案例相关的关键字可以是Single Document Keyword Extraction关于这一点的一篇好论文是:

我们提出了一种新的关键字提取算法,该算法适用于单个文档而不使用语料库。首先提取频繁词,然后生成每个词与频繁词之间的一组共现,即在相同句子中的出现。 共现分布显示了一个词在文档中的重要性,如下所示。如果术语 a 和频繁术语之间的共现概率分布偏向于频繁术语的特定子集,则术语 a 很可能是关键字。分布偏差的程度由χ2-措施。我们的算法在不使用语料库的情况下显示出与 tfidf 相当的性能。

你可以在这里找到论文。

总之,本文根据定义的关键字对关键字进行排名χ2-措施。