我正在使用 TF-IDF 对大量文档进行关键字提取。目前,我正在根据 n-gram 拆分每个句子。更具体地说,我正在使用三元组。但是,这不是将每个句子拆分为构成关键字的整数的最佳方法。例如,像“三重心脏旁路”这样的名词短语可能并不总是被检测为一个术语。
将每个句子分块成其构成元素的另一种替代方法看起来是 [Open NLP][2] 中的语音标记和 [分块][1] 的一部分。在这种方法中,像“三重心脏旁路”这样的短语总是被作为一个整体提取,但缺点是在 TF-IDF 中,提取的术语(短语)的频率急剧下降。
有没有人对这两种方法有任何建议或有任何其他想法来提高关键字的质量?