我有 50,000 张图像的样本,其中一些如下所示:
与这些图像相关联的是具有最大像素大小的数字的标签。我的目标是建立一个机器学习模型,以按像素大小预测图像中的最大数字。
为此,我在 resnext 模型上使用了迁移学习,但只发现了 60% 的准确率。
鉴于此实现使用迁移学习来训练模型以预测 MNIST 数字,我现在想裁剪每个训练图像以仅保留最大数字,然后使用链接实现训练模型。
所以,我的问题是,我如何裁剪训练图像以仅保留每个图像中最大尺寸的数字。
您需要手动或自动在每个数字周围绘制边界框。然后计算每个盒子的面积并取最大的。
鉴于它们是白色背景上不重叠的黑色数字,模板匹配将起作用。
找到黑色像素的连通分量,然后对于每个连通分量,找到它的边界框,并保留最大边界框的那个。
(如果您遇到噪音问题,使用形态运算符进行预处理可能会有所帮助。但只有在上述简单方法不起作用时才尝试。)