光学字符识别中的表示是什么?

数据挖掘 特征选择 特征提取 特征工程 ocr
2021-10-04 20:07:06

我正在学习 OCR 并正在阅读这本书

作者定义了 8 个流程来实现 OCR,这些流程一一遵循(2 在 1 之后,3 在 2 之后等):

  1. 光学扫描
  2. 位置分割
  3. 预处理
  4. 分割
  5. 表示
  6. 特征提取
  7. 认出
  8. 后期处理

这就是他们写的关于表示的内容(#5)

第五个 OCR 组件是表示。图像表示在任何识别系统中都扮演着最重要的角色之一。在最简单的情况下,灰度级或二进制图像被馈送到识别器。然而,在大多数识别系统中,为了避免额外的复杂性并提高算法的准确性,需要更紧凑和更有特征的表示。为此,为每个类提取一组特征,有助于将其与其他类区分开来,同时保持类内特征差异的不变性。字符图像表示方法通常分为三大类:(a)全局变换和系列扩展 (b) 统计表示和 (c) 几何和拓扑表示。

这就是他们写的关于特征提取的内容(#6)

第六个 OCR 组件是特征提取。特征提取的目的是捕获符号的基本特征。特征提取被认为是模式识别中最困难的问题之一。描述字符最直接的方式是通过实际的光栅图像。另一种方法是提取某些表征符号的特征,但留下不重要的属性。提取这些特征的技术分为三组,即。(a) 点分布 (b) 变换和级数展开和 (c) 结构分析。

我完全糊涂了。我不明白什么是代表。据我了解,分割后我们必须从图像中获取一些特征,例如像弗里曼链码这样的拓扑结构,并且必须与学习阶段模型中保存的一些特征相匹配——即进行识别。换句话说——分割——特征提取——识别。我不明白在代表阶段必须做什么。请解释。

1个回答

正是由于他们陈述的原因,表示步骤在特征提取步骤之前。

如果您采用完整的图像表示并直接进行特征提取,您将有更多的数据可以从中提取特征(增加了复杂性),并且您提取的特征将更加嘈杂。这就是为什么至少将表示降低到灰度级的原因(正如作者所建议的那样)。

特征提取是选择图像的属性,然后您将对其执行识别。在执行此操作之前,已经丢弃了图像的不重要细节,这一点很重要。这就是为什么作者和一般人在执行特征提取之前减少到适当的表示。