如何检测文档图像中的文本块

数据挖掘 机器学习 美国有线电视新闻网 计算机视觉
2021-10-04 11:48:55

我计划从文档文本图像中检测文本,如下所示:

目标:

在此处输入图像描述

工作完成: 我试图用一些场景文本检测算法来解决这个问题,比如EAST Text detection和PixelLink但它仅以如下方式单独检测每个单词的方式提供结果,这很明显: 在此处输入图像描述

什么方法可以帮助我检测 GOAL 中提到的文本块。

编辑 :

我不想通过 OCR 提取所有文本。我想要的是根据它们的视觉位置排列来检测文本在图像中看到,放置在一起的文本被检测为块。我的结果应该包含所有检测到的文本块的所有边界框坐标。

1个回答

我会将文本块合并作为一个聚类问题来处理。如果您在各个文本框之间定义合适的距离度量或相邻谓词,则可以对框进行分组,然后确定它们的最小边界框,这基本上就是您的目标。

我猜 DBSCAN 可能是聚类算法的合适候选者,但在设计邻居谓词时必须更加小心——一个想法可能是垂直距离的处理方式与水平距离的处理方式不同,等等。