我有一个包含 330 张包含枪支的图像的数据集。除了图像,我还有一个与每个图像文件相关联的文本文件,其中包含,
- 图像中物体(枪)的数量。
- 图像中枪周围边界框的坐标。
我需要训练一个模型,该模型将图像作为输入并输出 4 个整数值,它们是边界框的坐标(边界框的顶点)。
为了训练目标检测模型,是否应该将图像作为输入,将坐标作为模型的输出?是否应该有用于特征提取的卷积层,然后是用于学习产生 4 个输出(边界框坐标)的特征的 FC 层?
这种模型架构的概念是否正确?还有其他提示/建议吗?
我完全在 TensorFlow Keras 中创建这个模型,而不使用任何预训练的东西。