数据挖掘 - 从大量不同格式的文档中提取文本 - 吾爱随笔录

我在硬盘上存储了 600 万份文档（大约 500GB 的数据存储空间）。这些文档包含文本、表格、图像，并采用不同的格式：pdf、jpg、png、rar、vsd、xlsx、docx 和其他 Microsoft Office 文件类型。

一些文档包含数字文本 (90%)，其他文档是扫描副本 (10%)。一些文件是英文的（5%），一些是俄文的（5%），其余的是英文和俄文的混合（包含具有相似含义的翻译）。还有一些文件被打包成 zip 或 rar 档案。

解析所有这些文档以获取文本数据的最佳方法是什么？

存储提取数据的最佳方法是什么？

如何使这些数据可搜索？例如，如果我想列出包含与我的搜索段落相似的文本的前 30 个文档。

PS：我有兴趣在尽可能短的时间内完成这项任务，所以我想可能的解决方案将涉及大数据技术和分布式计算。