按文档类型对非结构化文本进行无监督聚类

数据挖掘 聚类 无监督学习 文本
2022-03-17 09:36:20

我有 100,000 多个 PDF 医疗保健文档,我从中提取了文本。我想按类型对这些文档进行聚类(例如病理报告、医生就诊记录、处方单等)

文件的格式和结构提前未知。但是,我们可以假设文档类型的名称显式出现在每个文档的前 50 个单词中。例如,病理报告将在顶部附近的某处包含“病理报告”字样。

文件的内容在其他方面无关紧要。我只是想按文档类型将文档聚集在一起。

我事先不知道文件类型的名称或数量。我希望算法能够自动确定最佳聚类数。

我在机器学习方面不是很有经验,但我是一个称职的程序员。解决这个问题的最佳方法是什么?谢谢。

1个回答

“病理报告,医生就诊记录,处方单”这些是类,而不是集群。聚类也可以找到“头痛的人”、“星期四的病人”……你无法在无人监督的情况下控制它。

所以我宁愿建议做一个分类

例如,将第一行中包含“患者报告”的所有文档放入单独的集合中。检查剩余部分是否有另一个关键字。添加另一个规则如果数据如所解释的那样,10 条这样的规则可能会将剩余的文档缩小到可管理的规模,并且最终可以将它们视为“其他”。

如果可以解决您的问题,那么检查文档和添加规则并没有错。您可能永远不需要在不同的文档集合(例如法律文本)上进行这项工作。