数据挖掘 - 如何从 pdf 中获取文本以进一步处理同一文档中基于问答的模型？ - 吾爱随笔录

如何从 pdf 中获取文本以进一步处理同一文档中基于问答的模型？

数据挖掘机器学习深度学习 nlp 美国有线电视新闻网计算机视觉

2022-03-05 01:51:15

为了说明上面的标题。

假设你有一个 pdf 文档，基本上是从硬拷贝扫描出来的，现在有一组固定的问题需要从文档本身来回答。例如，一份包含土地合同的文件，现在的固定问题是“谁是卖方？” “资产的价格是多少？”，文件提到这个答案可能有 2-3 次，作为一个人类，这是一项简单的任务。

如何自动化？

1个回答

您可以使用 pypdf2 从 pdf 中提取文本。

import PyPDF2

with open('sample.pdf','rb') as pdf_file, open('sample_output.txt', 'w') as text_file:
    read_pdf = PyPDF2.PdfFileReader(pdf_file)
    number_of_pages = read_pdf.getNumPages()
    for page_number in range(number_of_pages):   # use xrange in Py2
        page = read_pdf.getPage(page_number)
        print('Page No - ' + str(1 + read_pdf.getPageNumber(page)))
        page_content = page.extractText()
        text_file.write(page_content)

其它你可能感兴趣的问题

上一篇使用不同标准平衡数据下一篇重要性加权自动编码器的直观解释是什么？