我一直在阅读有关图像处理、计算机视觉和卷积神经网络的研究文献。对于图像分类和对象识别,我知道当有大量数据可用时,卷积神经网络可以提供最先进的性能。此外,我知道 Hinton 等人。创建了“胶囊网络”来尝试克服 CNN 架构的一些基本限制(例如它们不是旋转不变的)。然而,我的理解是胶囊网络(到目前为止)一直是失败的,大多数人都希望它们无处可去。并且 CNN 已经以各种方式逐步得到改进(用于超参数调整的贝叶斯优化、新的卷积核等)。在我看来,目前以及在可预见的未来,
但是,正如我所说,CNN 与其他深度学习架构一样,需要大量数据。所以我的问题如下:
从使用更少的数据(使用小数据集)使它们更有效地工作(即具有更高的性能)的意义上来说,改进 CNN 的研究领域/主题是什么?
我知道有各种研究着眼于增加数据的方法(例如数据增强、生成网络等),但我主要对 CNN 本身的基本修改感兴趣,而不是仅仅关注数据本身的变化。
为了扩展我的问题,使用我上面对“性能”的定义,我对这两个类别感兴趣:
用于提高 CNN 性能的“计算方法”。这将是我读过的非数学内容,例如只是增加层数并使 CNN 更深/更宽(我认为另一个与只是使卷积核的大小更小有关,这样它就可以随时查看图像的较小部分,或者类似的东西?)。
提高 CNN 性能的“数学方法”。这将是我读过的最前沿的数学/统计资料:算法之类的东西(例如贝叶斯优化);我遇到了很多几何的东西;我猜图像处理人员创造的尖端卷积核也属于这一类。
显然,这个“列表”并不详尽,而且很可能是不正确的;我是这项研究的新手,所以我正在努力寻找解决方法。
我有兴趣研究上述两个类别,但我将主要从数学/统计方面工作。而且我想从事仍然实用的研究,并且可以在工业中使用以提高性能(即使对于大多数工业界的人来说它可能仍然是“先进的”/复杂的)——而不是与高度理论相关的东西。
相关(但未回答):是否有任何关于数据有限的图像识别的优秀研究论文?