可搜索 PDF 的免费 OCR 软件(可在正确位置搜索文本)

软件推荐 视窗 免费 linux pdf ocr
2021-10-10 19:31:39

是否有任何免费的 OCR 软件(适用于 Linux 和/或 Windows)可以像 Adob​​e Acrobat 一样将 PDF 扫描文档作为输入并输出可搜索的 PDF?

对于可搜索的 PDF,我的意思是 OCRed 文本在原始文本上是不可见的,可以用鼠标选择并复制。

我知道Linux上的gscan2pdf可以做这样的事情,但是文本放在页面的左上角并且太小了,与背景扫描页面上的文本完全不同步。这是因为 gscan2pdf 将整个页面提供给 OCR 引擎。它应该将图像分解为带有单行文本或小段落的小图像,以发送到 OCR 软件。

4个回答

一个可以让你做到这一点的工具是PDF-XChange Viewer免费版本将允许您以多种语言对文档进行 OCR(您可以免费下载其他语言包)并将 OCR 文本添加为​​覆盖文本层,您可以从中复制并使用 CTRL+F 进行搜索。

  • 具有许多功能的快速 PDF 查看器
  • 快速 OCR 引擎(除非您选择最佳精度)
  • 很多选项PRO旁边都有图标(仅在 Pro 版本上可用)但您可以隐藏它们
  • 颜色管理和自定义屏幕 DPI 设置
  • 仅限 Windows 的应用程序,似乎在Wine上不起作用(查看器可以工作,但 OCR 功能使其崩溃)

它没有什么:

  • OCR 没有利用多核
  • OCR 不检测字符样式(粗体、斜体)或复制功能丢失它们
  • 它不使用正确的罗马尼亚 变音符号,但如果您在编辑器中复制文本并进行搜索和替换,则可以修复:

在此处输入图像描述

在此处输入图像描述

试试pdfsandwich从手册页:

pdfsandwich 生成“三明治”OCR pdf 文件,即仅包含图像(无文本)的 pdf 文件将通过光学字符识别 (OCR) 进行处理,并且文本将被添加到每个页面不可见的“背后”图像。

pdfsandwich 是一个命令行实用程序。如果您有一个扫描的 pdf 文件,例如这个:(alice.pdf这是您可能听说过的小说的第一章),请像这样调用 pdfsandwich:

pdfsandwich alice.pdf

这将生成一个alice_ocr.pdf看起来像原始文件的文件,但识别的文本将放置在扫描图像的后面。您现在可以进行全文搜索或选择文本区域。

另一种选择可能是OCRmyPDF.

较新版本的Tesseract(撰写本文时为 3.03 RC)可以做到这一点:

  • 免费、开源和跨平台
  • 从 3.03 版开始 PDF 输出可用
  • 命令行软件
  • 多语言支持
  • 不幸的是,单个图像输入,因此要制作完整的文档,必须创建一个批处理脚本来将每个页面图像转换为可搜索的 PDF。之后,应使用pdftk等工具将 PDF 页面合并为单个 PDF

这是命令:

tesseract -l <lang> input.tif output pdf

pypdfocr对我有用。它是一个简化整个 Tesseract 使用的 Python 脚本。安装依赖项后(在 Linux 上这是一个更简单的过程),只需键入:

pypdfocr myfile.pdf

myfile_ocr.pdf并在稍后打开。