我正在训练一个 CNN 来识别图像中的对象(每张图像一个标签)。但是,我有关于这些图像的其他信息,这些信息无法通过查看图像本身来检索。更详细地说,我说的是这个对象的物理位置。事实证明,这些信息在对这些对象进行分类时很重要。
但是,我想不出一个好的解决方案来将此信息包含在图像识别模型中,因为 CNN 是根据像素值而不是有序特征数据对对象进行分类。
我正在考虑的一种可能的解决方案是在表格数据(主要包括位置数据)上增加一个简单的 ML 模型,例如 SVM,为 CNN 的输出赋予一定的额外权重。这会是一个好的策略吗?我似乎在文献中找不到任何关于此的内容。
提前致谢!
编辑:有人问我“位置”是什么意思。我所说的位置是指拍摄图像的物理位置,在大型 2d 空间的上下文中。我不想深入该领域,但它基本上是表面区域上的 (x,y) 向量,显然无法通过查看像素值来提取此元数据。
编辑2:我想提出另一种我发现有用的方法,但在任何答案中都没有提到。我没有使用神经网络来预测类别,而是使用神经网络来生成特征。
我删除了最后一层,其输出形状为 1024x1。这显然取决于您的网络设计。然后,我可以在附加模型(例如 SVM 或另一个 NN)中将这些特征与元数据(在我的情况下为位置数据)一起使用来进行预测。