如何检测文档图像中的文本块
数据挖掘
机器学习
美国有线电视新闻网
计算机视觉
2021-10-04 11:48:55
1个回答
我会将文本块合并作为一个聚类问题来处理。如果您在各个文本框之间定义合适的距离度量或相邻谓词,则可以对框进行分组,然后确定它们的最小边界框,这基本上就是您的目标。
我猜 DBSCAN 可能是聚类算法的合适候选者,但在设计邻居谓词时必须更加小心——一个想法可能是垂直距离的处理方式与水平距离的处理方式不同,等等。

