我有一个应用程序,我想在一个简单、相对恒定的背景(固定的摄像机角度等)上找到对象的位置。出于调查目的,我创建了一个测试数据集,其中显示了实际问题的许多特征。
这是我的测试数据集中的一个样本。
我们的问题描述是在图像中找到单个圆圈的边界框。如果有多个圆或没有圆,我们不关心边界框(但我们至少需要知道没有有效的单个边界框)。
为了解决这个问题,我构建了一个可以回归的 CNN,(min_x, min_y, max_y, max_y)以及一个可以指示图像中有多少个圆圈的值。
我尝试了不同的架构变体,但总的来说,架构 a 是非常标准的 CNN(3-4 个 ReLU 卷积层,其间具有最大池化,然后是密集层和具有线性激活边界框输出的输出层,设置为最小化输出和地面实况边界框之间的均方误差)。
无论架构、超参数、优化器等如何,结果总是相同的——即使有超过 50000 个训练示例可供使用,CNN 甚至无法构建能够回归准确边界框的模型。
是什么赋予了?我是否需要考虑使用另一种类型的网络,因为 CNN 更适合分类而不是定位任务?
显然,有计算机视觉技术可以轻松解决这个问题,但由于实际应用涉及更多,我想严格了解解决这个问题的 NN/AI 方法。
