我对图像分类比较陌生。目前,我正在尝试使用卷积神经网络 (CNN) 对昆虫图像进行分类。当我请人类专家识别昆虫时,我通常会提供两张照片:背部和面部。似乎有时一个特征很突出并允许以高确定性进行识别(“背面的斑点 - 绝对是瓢虫”),而其他时候您需要交叉引用两个角度(“灰色背面可能意味着一些东西,但在用眼睛交叉参照——它是一只飞蛾”)。
习惯上如何实现这一点?我天真地考虑:
两个独立的网络,一个用于背部,一个用于面部?如果是这样,什么公式最适合衡量他们的输出?
单一网络,但单独的双重分类 - 例如“蛾脸”、“蛾背”、“瓢虫脸”、“瓢虫背”?
一个单一的网络,天真地喂养所有东西(例如,来自不同角度的飞蛾,都具有相同的分类“飞蛾”)并依靠 NN 自行排序?