如何从 pdf 中获取文本以进一步处理同一文档中基于问答的模型?

数据挖掘 机器学习 深度学习 nlp 美国有线电视新闻网 计算机视觉
2022-03-05 01:51:15

为了说明上面的标题。

假设你有一个 pdf 文档,基本上是从硬拷贝扫描出来的,现在有一组固定的问题需要从文档本身来回答。例如,一份包含土地合同的文件,现在的固定问题是“谁是卖方?” “资产的价格是多少?”,文件提到这个答案可能有 2-3 次,作为一个人类,这是一项简单的任务。

如何自动化?

1个回答

您可以使用 pypdf2 从 pdf 中提取文本。

import PyPDF2

with open('sample.pdf','rb') as pdf_file, open('sample_output.txt', 'w') as text_file:
    read_pdf = PyPDF2.PdfFileReader(pdf_file)
    number_of_pages = read_pdf.getNumPages()
    for page_number in range(number_of_pages):   # use xrange in Py2
        page = read_pdf.getPage(page_number)
        print('Page No - ' + str(1 + read_pdf.getPageNumber(page)))
        page_content = page.extractText()
        text_file.write(page_content)