数据挖掘 - 按文档类型对非结构化文本进行无监督聚类 - 吾爱随笔录

数据挖掘聚类无监督学习文本

2022-03-17 09:36:20

我有 100,000 多个 PDF 医疗保健文档，我从中提取了文本。我想按类型对这些文档进行聚类（例如病理报告、医生就诊记录、处方单等）

文件的格式和结构提前未知。但是，我们可以假设文档类型的名称显式出现在每个文档的前 50 个单词中。例如，病理报告将在顶部附近的某处包含“病理报告”字样。

文件的内容在其他方面无关紧要。我只是想按文档类型将文档聚集在一起。

我事先不知道文件类型的名称或数量。我希望算法能够自动确定最佳聚类数。

我在机器学习方面不是很有经验，但我是一个称职的程序员。解决这个问题的最佳方法是什么？谢谢。

1个回答

“病理报告，医生就诊记录，处方单”这些是类，而不是集群。聚类也可以找到“头痛的人”、“星期四的病人”……你无法在无人监督的情况下控制它。

所以我宁愿建议做一个分类。

例如，将第一行中包含“患者报告”的所有文档放入单独的集合中。检查剩余部分是否有另一个关键字。添加另一个规则。如果数据如所解释的那样，10 条这样的规则可能会将剩余的文档缩小到可管理的规模，并且最终可以将它们视为“其他”。

如果可以解决您的问题，那么检查文档和添加规则并没有错。您可能永远不需要在不同的文档集合（例如法律文本）上进行这项工作。

其它你可能感兴趣的问题