数据挖掘 - 多位数 MNIST 和迁移学习 - 吾爱随笔录

我有 50,000 张图像的样本，其中一些如下所示：

$\qquad$ $\qquad$ $\qquad$ $\qquad$

与这些图像相关联的是具有最大像素大小的数字的标签。我的目标是建立一个机器学习模型，以按像素大小预测图像中的最大数字。

为此，我在 resnext 模型上使用了迁移学习，但只发现了 60% 的准确率。

鉴于此实现使用迁移学习来训练模型以预测 MNIST 数字，我现在想裁剪每个训练图像以仅保留最大数字，然后使用链接实现训练模型。

所以，我的问题是，我如何裁剪训练图像以仅保留每个图像中最大尺寸的数字。