一个客户想要整理他的文件系统(大约 1,000,000,000 个文件),这些文件系统多年来一直由许多工作人员提供,每个工作人员都有自己未知的命名约定,例如:
- [日期]-[客户]-[文件名]
- [类型]-[客户]。[日期][文件名]
- ...
这里有四个示例(大约 1,000,000,000 个文件)以使事情更清楚:
JPM_TPD0001662_2009124012302000451.pdf
JPMF_STA_1712010832_18001_LUX_approval.pdf
CHACN05CTRP_00111.001.pdf
CHACN63CJO1_00018.001.pdf
目的是找出命名约定中的模式,但我不能使用正则表达式,因为约定是先验未知的。
我想知道是否有一种聚类算法能够根据文件的命名约定对文件进行分组。
任何适用于字符串的 K-Mean 哲学?

