我希望能够创建一个模型,该模型能够对已分成 9 个部分并杂乱无章的图像进行分类。
我确实看到过一篇论文,但它已经很老了(7-8 岁)。谁能指出我的任何资源?构建 CNN 是最好的方法吗?
任何帮助表示赞赏。
我希望能够创建一个模型,该模型能够对已分成 9 个部分并杂乱无章的图像进行分类。
我确实看到过一篇论文,但它已经很老了(7-8 岁)。谁能指出我的任何资源?构建 CNN 是最好的方法吗?
任何帮助表示赞赏。
这篇 2019 年的论文指出,当前所有的图像分类模型实际上都在做同样的事情,即对混乱的图像块进行分类。原因是它们在使远程依赖(远处像素之间的关系)达到峰值时很弱。因此,通过改组图像补丁来打破这些依赖关系不会对它们产生实质性影响。这是一篇文章,解释了调查结果和适合您需要的BagNet方法。
一些选项:
CNN 确实是计算机视觉中用于图像识别、分类和分类的最先进技术。简单地获取混乱的图像并通过 CNN 学习从它们到标签的映射可能是最直接且最可行的方法。
对于试图学习标签的问题,上述想法中缺少的一件事依赖于一些全局结构上一致的方面,这些方面在加扰期间被破坏。在这种情况下,人们可以尝试学习重建图像(见下文),也可以将每张图像尝试几次随机重排作为输入(每个置换图像),然后采用网络最有信心的预测。
另外,如果您想重建混乱的图像(即解决打乱的难题),最近有一些论文正在研究如何做到这一点。例如,
DeepPermNet:视觉排列学习(2017)