手写识别从字符级别转移到单词级别

数据挖掘 机器学习 深度学习 rnn lstm 美国有线电视新闻网
2021-09-18 15:13:06

鉴于 MIST 的经验,我将这个问题作为角色级别来尝试。

我有一个手写文本,我想“OCR”它。尽管我在 openCV 方面取得了进展(在图像预处理上,在 DNN 分类器之前)。

我认为最好的方法是转移到单词级别(进入 RNN)。我正在用 Python 写这个。但是不知道怎么把DNN的最后一层改成RNN的输入层。

是否有任何代码可供假人查看这是如何完成的(对于作为第一个 DNN 层输入的图像)?此外,我看到您可以将语言模型放在最上面(这将是一本字典,对吗?)。建议?

3个回答

我要提到的是介绍一些关于这种情况的论文。这些论文有可用的数据集,并且可以轻松访问那里的代码。实际上在这方面有很多作品,但我建议您阅读以下与您的问题相关的论文。在英语中,语言的本质是您使用字母组合来组成单词,通常不需要连接字母来构造单词。还有其他语言必须将字母连接起来才能造词。在这些语言的问题中,考虑连接组件OCR是一种常见的做法我要参考的论文有一个很好的数据集,可以用于监督和非监督方法。

最后一篇论文是一篇很棒的论文,并且在某种程度上是前一篇论文的结果。

我认为教程是您所需要的。

此视频中描述了该体系结构它基于 CNN 和一些 LSTM 神经网络。

我不知道它是否是这种 stuf 的最佳架构,但我认为它可以很好地理解如何解决问题。

我认为您在这里不需要循环神经网络。这将比 ConvNet 慢得多。此外,您的数据是图像,对吗?我认为您可以将深度卷积网络用于全连接网络。这应该很快并且表现良好。请查看以下来自 keras 的存档博客。

使用很少的数据构建强大的图像分类模型

卷积神经网络如何看待世界