为了说明上面的标题。
假设你有一个 pdf 文档,基本上是从硬拷贝扫描出来的,现在有一组固定的问题需要从文档本身来回答。例如,一份包含土地合同的文件,现在的固定问题是“谁是卖方?” “资产的价格是多少?”,文件提到这个答案可能有 2-3 次,作为一个人类,这是一项简单的任务。
如何自动化?
为了说明上面的标题。
假设你有一个 pdf 文档,基本上是从硬拷贝扫描出来的,现在有一组固定的问题需要从文档本身来回答。例如,一份包含土地合同的文件,现在的固定问题是“谁是卖方?” “资产的价格是多少?”,文件提到这个答案可能有 2-3 次,作为一个人类,这是一项简单的任务。
如何自动化?
您可以使用 pypdf2 从 pdf 中提取文本。
import PyPDF2
with open('sample.pdf','rb') as pdf_file, open('sample_output.txt', 'w') as text_file:
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
for page_number in range(number_of_pages): # use xrange in Py2
page = read_pdf.getPage(page_number)
print('Page No - ' + str(1 + read_pdf.getPageNumber(page)))
page_content = page.extractText()
text_file.write(page_content)