假设一个人有一个神经网络,能够从给定的 28x28px 图像中返回数字。
如何将未知大小和未知数字数量的图像拆分为一系列 28x28px 图像以提供给该网络?(数字的顺序必须是可获取的。)
例如:
如何将其拆分为:
假设并不总是有 5 位数字,并且初始图像并不总是相同的大小。
首先,我的想法是创建一个二级神经网络。该神经网络将输出 (x, y) 坐标。这可用于将图像裁剪为关于此坐标的 28x28px。然而,这个神经网络一次只能定位一个数字。
其次,另一个想法是可以执行一系列随机裁剪,然后全部交给数字识别神经网络。但是,这会产生很高的错误率,并且数字识别神经网络无法判断没有给出有效数字(除非添加了输出)。但更重要的是,数字的顺序会/可能会丢失。
我正在努力寻找任何解释可能解决方案的资源。谷歌的门牌号码识别功能采用整个数字图像并返回一个值。这可以在Google 如何破解街景中的门牌号码识别和使用深度卷积神经网络从街景图像中识别多位数号码中找到。



















