软件推荐 - 可搜索 PDF 的免费 OCR 软件（可在正确位置搜索文本） - 吾爱随笔录

可搜索 PDF 的免费 OCR 软件（可在正确位置搜索文本）

软件推荐视窗免费 linux pdf ocr

2021-10-10 19:31:39

是否有任何免费的 OCR 软件（适用于 Linux 和/或 Windows）可以像 Adobe Acrobat 一样将 PDF 扫描文档作为输入并输出可搜索的 PDF？

对于可搜索的 PDF，我的意思是 OCRed 文本在原始文本上是不可见的，可以用鼠标选择并复制。

我知道Linux上的gscan2pdf可以做这样的事情，但是文本放在页面的左上角并且太小了，与背景扫描页面上的文本完全不同步。这是因为 gscan2pdf 将整个页面提供给 OCR 引擎。它应该将图像分解为带有单行文本或小段落的小图像，以发送到 OCR 软件。

4个回答

一个可以让你做到这一点的工具是PDF-XChange Viewer。免费版本将允许您以多种语言对文档进行 OCR（您可以免费下载其他语言包）并将 OCR 文本添加为覆盖文本层，您可以从中复制并使用 CTRL+F 进行搜索。

具有许多功能的快速 PDF 查看器
快速 OCR 引擎（除非您选择最佳精度）
很多选项PRO旁边都有图标（仅在 Pro 版本上可用）但您可以隐藏它们
颜色管理和自定义屏幕 DPI 设置
仅限 Windows 的应用程序，似乎在Wine上不起作用（查看器可以工作，但 OCR 功能使其崩溃）

它没有什么：

OCR 没有利用多核
OCR 不检测字符样式（粗体、斜体）或复制功能丢失它们
它不使用正确的罗马尼亚变音符号，但如果您在编辑器中复制文本并进行搜索和替换，则可以修复：

在此处输入图像描述

试试pdfsandwich。从手册页：

pdfsandwich 生成“三明治”OCR pdf 文件，即仅包含图像（无文本）的 pdf 文件将通过光学字符识别 (OCR) 进行处理，并且文本将被添加到每个页面不可见的“背后”图像。

pdfsandwich 是一个命令行实用程序。如果您有一个扫描的 pdf 文件，例如这个：（alice.pdf这是您可能听说过的小说的第一章），请像这样调用 pdfsandwich：
pdfsandwich alice.pdf
这将生成一个alice_ocr.pdf看起来像原始文件的文件，但识别的文本将放置在扫描图像的后面。您现在可以进行全文搜索或选择文本区域。

另一种选择可能是OCRmyPDF.

较新版本的Tesseract（撰写本文时为 3.03 RC）可以做到这一点：

免费、开源和跨平台
从 3.03 版开始 PDF 输出可用
命令行软件
多语言支持
不幸的是，单个图像输入，因此要制作完整的文档，必须创建一个批处理脚本来将每个页面图像转换为可搜索的 PDF。之后，应使用pdftk等工具将 PDF 页面合并为单个 PDF 。

这是命令：

tesseract -l <lang> input.tif output pdf

pypdfocr对我有用。它是一个简化整个 Tesseract 使用的 Python 脚本。安装依赖项后（在 Linux 上这是一个更简单的过程），只需键入：

pypdfocr myfile.pdf

myfile_ocr.pdf并在稍后打开。

其它你可能感兴趣的问题

上一篇适用于 Windows 的类 Linux 终端下一篇可在 Windows 98SE 中运行的“现代”浏览器