是否可以将两个在不同分辨率的输入数据上运行的网络堆叠在一起?
所以这是我的用例:像 Google 一样,我想识别图像中的文本。与谷歌不同,我可以访问非常有限的计算资源。我对此的解决方案是,我不是在整个场景图像上使用序列到序列网络,而是首先使用YOLO运行对象检测,然后将裁剪传递给序列到序列模型Attention-OCR。
为了进一步减少处理时间,我在低分辨率下运行对象检测,并在更高分辨率的输入图像中裁剪检测结果,因此在我的裁剪上使用序列识别时我仍然可以访问高分辨率输入。要检测有文本,低分辨率就足够了,但要阅读文本,网络需要更高分辨率的输入。
这一切都很好,但我怀疑如果我可以端到端地训练整个系统,我会获得更好的性能,因此可以直接优化裁剪以产生最佳的文本阅读效果。我可以将序列到序列模型堆叠在对象检测模型之上来执行此操作,但随后文本读取在用于文本检测的相同低分辨率输入上运行。
有谁知道如何解决这个问题,或者任何人都可以指出与此相关的研究?