我有一个包含数千个乐谱页面和手动注释的各个小节的边界框的数据集:
我现在的目标是训练一个 DNN,它最终应该能够自己获得这些边界框。第一个想法是在 ResNet 或 VGG 之上使用来自 Faster R-CNN 的 Region Proposal Network (RPN) 之类的东西,但我不确定这是否仍然有效,因为页面的几乎每个部分的“对象性”都相当高。此外,这些区域大多相互接触,但很少重叠。每页的条数大约在 1 到 250 之间。
此外,每页的系统数量(= 条形行)通常在后续页面之间不会发生变化。这可能是 RPN 会错过的非常有用的信息。也许引入某种recurrency?
有没有更适合我的具体问题的东西?任何关于更合适的架构或进一步调整的建议将不胜感激。


