我有一些视频帧,我想从中提取一些文本(用于从硬字幕视频制作软字幕以进行学习)。有问题的文本主要是已知字体(看起来像 SimHei)的中文脚本(一些数字和拉丁字母),是白色(ish)和黑色(ish)边框,并且在恒定位置左对齐。我想要实现的是文本的“整洁”黑白图像。
示例输入,像这样,背景不受控制,也可以像文本一样白。
我想要实现的是可以提供给 OCR 的类似这样的东西:
我正在使用 Python 和 OpenCV。仅对图像进行阈值处理的幼稚第一次尝试是不够的,因为它(可预测地)在白色背景区域(例如,在本示例中的第一个和第二个字符下方)产生伪影。
边缘检测也具有挑战性,因为您可以为白黑边缘获得一个不错的“内边缘”,但您可能会或可能不会获得黑色背景边界的外边缘(如果背景很暗),或者您可能只会获得部分或未闭合的轮廓。一些背景非常嘈杂,因此也可能存在很多虚假边缘(这有点做作,因为没有进行过滤,并且 Canny 光圈太大,但双边缘可见):
我曾尝试使用拉普拉斯金字塔过滤器(基于此示例)过滤图像,但很难找到一个过滤器可以在白色文本上不经常将背景中的噪音吹成纯白色。例如,右侧是一个在阈值处理后看起来非常“text-y”的特征。
过滤“小”轮廓也具有挑战性,因为中文中有有效的小笔划,以及句号和逗号等标点符号。
对这样的文本进行稳健过滤的正确(或好)方法是什么?是否有一种“标准”技术可以锁定这种轮廓?我希望坚持图像处理和基本启发式,而不是像机器学习这样更高级的辨别。
这里还有一些帧,并非所有帧都有文本,表明图像中存在一些不太适合一刀切处理的特征:





