我在硬盘上存储了 600 万份文档(大约 500GB 的数据存储空间)。这些文档包含文本、表格、图像,并采用不同的格式:pdf、jpg、png、rar、vsd、xlsx、docx 和其他 Microsoft Office 文件类型。
一些文档包含数字文本 (90%),其他文档是扫描副本 (10%)。一些文件是英文的(5%),一些是俄文的(5%),其余的是英文和俄文的混合(包含具有相似含义的翻译)。还有一些文件被打包成 zip 或 rar 档案。
解析所有这些文档以获取文本数据的最佳方法是什么?
存储提取数据的最佳方法是什么?
如何使这些数据可搜索?例如,如果我想列出包含与我的搜索段落相似的文本的前 30 个文档。
PS:我有兴趣在尽可能短的时间内完成这项任务,所以我想可能的解决方案将涉及大数据技术和分布式计算。