是否有任何免费的 OCR 软件(适用于 Linux 和/或 Windows)可以像 Adobe Acrobat 一样将 PDF 扫描文档作为输入并输出可搜索的 PDF?
对于可搜索的 PDF,我的意思是 OCRed 文本在原始文本上是不可见的,可以用鼠标选择并复制。
我知道Linux上的gscan2pdf可以做这样的事情,但是文本放在页面的左上角并且太小了,与背景扫描页面上的文本完全不同步。这是因为 gscan2pdf 将整个页面提供给 OCR 引擎。它应该将图像分解为带有单行文本或小段落的小图像,以发送到 OCR 软件。