为关键字提取任务拆分句子的最佳方法是什么?

数据挖掘 nlp 文本挖掘
2021-09-22 20:48:29

我正在使用 TF-IDF 对大量文档进行关键字提取。目前,我正在根据 n-gram 拆分每个句子。更具体地说,我正在使用三元组。但是,这不是将每个句子拆分为构成关键字的整数的最佳方法。例如,像“三重心脏旁路”这样的名词短语可能并不总是被检测为一个术语。

将每个句子分块成其构成元素的另一种替代方法看起来是 [Open NLP][2] 中的语音标记和 [分块][1] 的一部分。在这种方法中,像“三重心脏旁路”这样的短语总是被作为一个整体提取,但缺点是在 TF-IDF 中,提取的术语(短语)的频率急剧下降。

有没有人对这两种方法有任何建议或有任何其他想法来提高关键字的质量?

1个回答

我认为标记方法在这里有一些优点。我认为,由于使用它,您观察到的频率下降是可以预料的。毕竟,关键字是有助于将文档与语料库中的其他文档区分开来的词。如果您可以访问与您的语料库主题相关的本体,您可以尝试将稀有的关键字标签映射到本体,并为每个本体使用父级信息以获得更通用的关键字标签集!如果您对这种方法感兴趣,斯坦福的开源protégé系统是一个很好的框架。