有没有可以识别扫描文档(PNG、JPG)中的文本并将其转换为常规文本文件(DOC、TXT)的工具?
这应该
- 在 Ubuntu 和 Mac OS X 上工作
- 是自由的
- 使用最常见的图像类型
有没有可以识别扫描文档(PNG、JPG)中的文本并将其转换为常规文本文件(DOC、TXT)的工具?
这应该
我已在 Ubuntu 上成功使用Tesseract进行光学字符识别。
它是免费的、开源的,由 Google 维护。
虽然对拉丁字符和数字来说还不错,但它在处理日文字符时遇到了困难。您可能必须首先根据您想要识别的内容为其提供训练数据。
它可以读取许多不同的图像格式。
我为此使用OCRfeeder。它是免费的、开源的并在 Linux 上运行(不幸的是,没有用于 OSX 的预编译可执行文件,尽管您可以从源代码构建它)。默认情况下,它在 Tesseract 引擎上运行,尽管这可以更改。
除了简单的英语外,我没有太多经验,但它对我来说效果很好,并且可以阅读大多数图像格式。它还可以打开阅读的 PDF。
.doc
在需要时将其转换为)、纯文本 ( .txt
) 等我使用 Microsoft OneNote 作为 OCR 工具。在图像上右键单击它可以复制图像中的整个文本,它还具有在图像中搜索文本的能力。它免费且准确,可在 Windows 上运行并支持几乎所有图像格式。
您可以复制其中的文本并将其粘贴到文本文档中。
我不确定它是否可以在 Ubuntu 中运行,或者不能通过 Wine,因为 Microsoft Office 现在可用于 Mac OS,OneNote 将在其上运行。
额外的一点是它支持多种语言:) 英语、法语、西班牙语也
您可以使用的流行 OCR 命令行工具很少(我不确定它们是否有 GUI):
开源字符识别。它将扫描的文本图像转换回文本文件。GOCR 可以与不同的前端一起使用,这使得移植到不同的操作系统和架构非常容易。它可以打开许多不同的图像格式,并且其质量每天都在提高。
OCRopus ™(常见问题解答)(用 Python、NumPy 和 SciPy 编写)
OCR系统专注于使用大规模机器学习解决文档分析中的问题,具有可插拔布局分析、可插拔字符识别、统计自然语言建模和多语言能力。
OCRopus 引擎基于两个研究项目:90 年代中期开发并由美国人口普查局部署的高性能手写识别器,以及新颖的高性能布局分析方法。
OCRopus 是由 Google 赞助开发的,最初旨在用于高吞吐量、大容量的文档转换工作。我们希望它也将成为许多其他应用程序的优秀 OCR 系统。
Tessnet2(开源、OCR、Tesseract、.NET、DOTNET、C#、VB.NET、C++/CLI)
Tesseract 是一个 C++ 开源 OCR 引擎。Tessnet2 是 .NET 程序集,它公开了非常简单的 OCR 方法。Tessnet2 在 Apache 2 许可下(如 tesseract),这意味着您可以随心所欲地使用它,包括在商业产品中。
其他几个:ABBYY CLI OCR for Linux,Asprise OCR
如需更完整的列表,请查看:Wikipedia上的光学字符识别软件列表
另请参阅: - GitHub 上wanghaisheng/awesome-ocr
有前途的 OCR 资源的精选列表。
相关主题:什么是最好、最简单的 OCR 解决方案?