多位数 MNIST 和迁移学习

数据挖掘 神经网络
2022-02-18 14:53:26

我有 50,000 张图像的样本,其中一些如下所示:

在此处输入图像描述 在此处输入图像描述 在此处输入图像描述 在此处输入图像描述 在此处输入图像描述

与这些图像相关联的是具有最大像素大小的数字的标签。我的目标是建立一个机器学习模型,以按像素大小预测图像中的最大数字。

为此,我在 resnext 模型上使用了迁移学习,但只发现了 60% 的准确率。

鉴于实现使用迁移学习来训练模型以预测 MNIST 数字,我现在想裁剪每个训练图像以仅保留最大数字,然后使用链接实现训练模型。

所以,我的问题是,我如何裁剪训练图像以仅保留每个图像中最大尺寸的数字。

2个回答

您需要手动或自动在每个数字周围绘制边界框。然后计算每个盒子的面积并取最大的。

鉴于它们是白色背景上不重叠的黑色数字,模板匹配将起作用。

找到黑色像素的连通分量,然后对于每个连通分量,找到它的边界框,并保留最大边界框的那个。

(如果您遇到噪音问题,使用形态运算符进行预处理可能会有所帮助。但只有在上述简单方法不起作用时才尝试。)