我很难考虑如何构建这个网络,但存在以下问题:我想构建一个 CNN 来对乐谱中的音符进行分类。我已经尝试了几种带有和不带有迁移学习的模型,每个图像只有一个标签,即“C 四分音符”或“B 二分音符”(不完全一样,但你明白了)。现在训练模型进展顺利,但对新图像进行分类仍然是垃圾。现在我想尝试将网络分成两部分:一个用于训练音高的网络(标签 1)和一个用于训练音符持续时间的网络(标签 2)。所以每个图像都有两个标签。我怎样才能做到最好?
1)建立和训练两个独立的模型,并结合结果。
2) 建立一个多标签网络(你仍然得到 label1 x label2 数量的标签,对吧?)。
3) 具有两个输出层的网络,每个输出层有一个标签和一个 Softmax 函数。虽然我不确定如何构建它以及这是否与选项 1 不同。
我关于迁移学习的第二个问题:在 imagenet 上训练的模型与我自己的数据集完全不同,所以我的逻辑是只冻结前几层的基本特征并训练模型的其余部分,这是否正确?
干杯