数据挖掘 - 如何检测文档图像中的文本块 - 吾爱随笔录

数据挖掘机器学习美国有线电视新闻网计算机视觉

2021-10-04 11:48:55

我计划从文档文本图像中检测文本，如下所示：

目标：

工作完成： 我试图用一些场景文本检测算法来解决这个问题，比如EAST Text detection和PixelLink。但它仅以如下方式单独检测每个单词的方式提供结果，这很明显：

什么方法可以帮助我检测 GOAL 中提到的文本块。

编辑：

我不想通过 OCR 提取所有文本。我想要的是根据它们的视觉位置排列来检测文本。在图像中看到，放置在一起的文本被检测为块。我的结果应该包含所有检测到的文本块的所有边界框坐标。

1个回答

我会将文本块合并作为一个聚类问题来处理。如果您在各个文本框之间定义合适的距离度量或相邻谓词，则可以对框进行分组，然后确定它们的最小边界框，这基本上就是您的目标。

我猜 DBSCAN 可能是聚类算法的合适候选者，但在设计邻居谓词时必须更加小心——一个想法可能是垂直距离的处理方式与水平距离的处理方式不同，等等。

其它你可能感兴趣的问题