我有 100,000 多个 PDF 医疗保健文档,我从中提取了文本。我想按类型对这些文档进行聚类(例如病理报告、医生就诊记录、处方单等)
文件的格式和结构提前未知。但是,我们可以假设文档类型的名称显式出现在每个文档的前 50 个单词中。例如,病理报告将在顶部附近的某处包含“病理报告”字样。
文件的内容在其他方面无关紧要。我只是想按文档类型将文档聚集在一起。
我事先不知道文件类型的名称或数量。我希望算法能够自动确定最佳聚类数。
我在机器学习方面不是很有经验,但我是一个称职的程序员。解决这个问题的最佳方法是什么?谢谢。