数据挖掘 - 识别街景门牌号 - 吾爱随笔录

我是深度学习的新手，我正在尝试训练一个神经网络来识别从街景中收集的门牌号码。我已经设法通过 CNN 识别 MNIST 手写数字序列。在这种情况下，我用数千个示例训练了 CNN，这些示例由我创建的 1 个到 5 个数字序列组成。

因此，我想为 SVHN 做同样的事情，我已经裁剪了数字，现在我有一个来自街景的大型个位数数据集。然而，MNIST 数据集是非常同质的（即图像具有相同的大小、相同的角度、相同的颜色等），而 SVHN 显然不是。尝试从不同的 SV 照片创建数字序列会导致奇怪的示例，这些示例实际上并不代表我想要建模的真实单词对象。

所以我想知道在单个数字上训练一个神经网络然后用它来识别序列是否更好。这有没有可能？如何？