从大量不同格式的文档中提取文本

数据挖掘 nlp 数据挖掘 熊猫 文本挖掘
2021-09-23 07:03:08

我在硬盘上存储了 600 万份文档(大约 500GB 的数据存储空间)。这些文档包含文本、表格、图像,并采用不同的格式:pdf、jpg、png、rar、vsd、xlsx、docx 和其他 Microsoft Office 文件类型。

一些文档包含数字文本 (90%),其他文档是扫描副本 (10%)。一些文件是英文的(5%),一些是俄文的(5%),其余的是英文和俄文的混合(包含具有相似含义的翻译)。还有一些文件被打包成 zip 或 rar 档案。

解析所有这些文档以获取文本数据的最佳方法是什么?

存储提取数据的最佳方法是什么?

如何使这些数据可搜索?例如,如果我想列出包含与我的搜索段落相似的文本的前 30 个文档。

PS:我有兴趣在尽可能短的时间内完成这项任务,所以我想可能的解决方案将涉及大数据技术和分布式计算。

1个回答

一种选择是使用Apache SOLR + Apache TIKA

Apache TIKA 支持最常见的文件格式,它从文件中提取测试内容。提取的文本可以存储在 SOLR 中。SOLR 支持各种文本+聚合查询。

教程:

https://blog.webnersolutions.com/apache-solr-indexing-all-files-in-a-folder-recursively

https://lucene.apache.org/solr/guide/6_6/introduction-to-solr-indexing.html

https://lucene.apache.org/solr/guide/6_6/uploading-data-with-solr-cell-using-apache-tika.html