我有一个扫描的 PDF 材料,我想在其中添加隐藏文本层,这样我就可以索引文档。我使用 ghostscript 黑白 tiff 输出设备 (tiffg4) 将页面提取为 tiff 图像,以下是它们的外观示例:
用 tesseract 处理这个图像,并没有给出好的结果。
更改 ghostscript 输出 DPI (600, 300, 150, 96) 表明 96 DPI 的图像从 tesseract 获得了最佳结果,但仍不能令人满意。
现在我想征求意见,哪种过滤器可以增强此图像以进行 OCR 处理。
我可以使用 imagemagick 或 numpy/scipy/ndimage