人工智能 - 如何构建网络以在简单图像中找到边界框？ - 吾爱随笔录

我有一个应用程序，我想在一个简单、相对恒定的背景（固定的摄像机角度等）上找到对象的位置。出于调查目的，我创建了一个测试数据集，其中显示了实际问题的许多特征。

这是我的测试数据集中的一个样本。

我们的问题描述是在图像中找到单个圆圈的边界框。如果有多个圆或没有圆，我们不关心边界框（但我们至少需要知道没有有效的单个边界框）。

为了解决这个问题，我构建了一个可以回归的 CNN，(min_x, min_y, max_y, max_y)以及一个可以指示图像中有多少个圆圈的值。

我尝试了不同的架构变体，但总的来说，架构 a 是非常标准的 CNN（3-4 个 ReLU 卷积层，其间具有最大池化，然后是密集层和具有线性激活边界框输出的输出层，设置为最小化输出和地面实况边界框之间的均方误差）。

无论架构、超参数、优化器等如何，结果总是相同的——即使有超过 50000 个训练示例可供使用，CNN 甚至无法构建能够回归准确边界框的模型。

是什么赋予了？我是否需要考虑使用另一种类型的网络，因为 CNN 更适合分类而不是定位任务？

显然，有计算机视觉技术可以轻松解决这个问题，但由于实际应用涉及更多，我想严格了解解决这个问题的 NN/AI 方法。