深度学习会扼杀图像处理/计算机视觉吗?

信息处理 图像处理 信号分析 计算机视觉 机器学习 深度学习
2022-01-01 20:52:06

我期待着攻读信号和图像处理的理学硕士学位,或者计算机视觉(我还没有决定),这个问题出现了。

我担心的是,由于深度学习不需要特征提取并且几乎不需要输入预处理,它是否会扼杀图像处理(或一般的信号处理)?

我不是深度学习方面的专家,但它似乎在识别和分类任务中效果很好,直接拍摄图像而不是像其他技术那样使用特征向量。

在任何情况下,传统的特征提取+分类方法会更好,利用图像处理技术,还是因为深度学习而消亡?

4个回答

在这个答案的顶部,您可以看到一段更新的链接,其中人工智能、机器智能、深度学习或数据库机器学习逐步超越了传统信号处理/图像分析/计算机视觉的基础。下面是原始答案的变体。

简而言之:卷积神经网络和深度学习的成功看起来像是一场伽利略革命。从实际的角度来看,经典的信号处理或计算机视觉已经死了......只要你有足够或足够好的标记数据,你不关心明显的分类失败(也就是深度缺陷深度伪造),你有无需考虑碳足迹即可运行测试的无限能量,并且不打扰因果或理性的解释。对于其他人,这让我们重新思考我们之前所做的一切:预处理、标准分析、特征提取、优化(参见我的同事 J.-C. Pesquet 在解决变分不等式的深度神经网络结构上的工作)、不变性、量化等。真正有趣的研究由此而来,希望能赶上扎根的原则和类似的表现。

更新链接:

我们介绍了自然对抗性示例——真实世界的、未修改的和自然发生的示例,这些示例会导致分类器准确性显着降低。我们策划了 7,500 个自然对抗样本,并将它们发布到我们称为 ImageNet-A 的 ImageNet 分类器测试集中。该数据集是一种衡量分类器鲁棒性的新方法。与 l_p 对抗样本一样,ImageNet-A 样本成功转移到看不见的或黑盒分类器。例如,在 ImageNet-A 上,DenseNet-121 获得了大约 2% 的准确度,准确度下降了大约 90%。恢复这种准确性并不容易,因为 ImageNet-A 示例利用了当前分类器的深层缺陷,包括过度依赖颜色、纹理和背景线索。我们观察到,用于提高鲁棒性的流行训练技术几乎没有效果,但我们表明,一些架构变化可以增强对自然对抗样本的鲁棒性。未来的研究需要对这个硬 ImageNet 测试集进行稳健的泛化。

  • 2019/05/03:深度学习:信号处理和时间序列分析的最终前沿?“在本文中,我想展示信号或时间序列至关重要的几个领域”
  • 2018/04/23:我刚从一年一度的声学、语音和信号处理国际会议ICASSP 2018回来。我对在某种程度上依赖于深度学习、深度网络等的论文数量感到惊讶。四分之二的全会(Alex Acero 和 Yann LeCun)专门讨论了这个主题。同时,我遇到的大多数研究人员都在开玩笑(“对不起,我的海报是关于滤波器组的,而不是关于深度学习的”,“我不喜欢那个,我有小数据集”),或者想知道在重大挑战中获得 0.5% 的收益,并失去对物理或统计先验建模的兴趣。
  • 2018/01/14:深网能看到猫吗?,从“抽象猫”到“最好的猫”倒置、绘制等,并在草图上以某种方式令人惊讶的结果
  • 2017/11/02:添加了对散射变换/网络的引用
  • 2017/10/21:卷积神经网络在成像逆问题中的回顾
  • 深度学习及其在信号和信息处理中的应用,IEEE 信号处理杂志,2011 年 1 月

深度学习参考标准信号/图像处理的“步进”可以在底部找到。Michael Elad 刚刚写了 Deep, Deep Trouble: Deep Learning's Impact on Image Processing, Mathematics, and Humanity (SIAM News, 2017/05),节选:

然后神经网络突然卷土重来,而且是复仇的。

这个论坛很有趣,因为它展示了从传统的“图像处理”(试图建模/理解数据)到正确领域的转变,而没有太多的洞察力。

这个领域的发展速度非常快。这并不意味着它会朝着某个有意或不变的方向发展。没有对错。但是今天早上,我听到了以下说法(或者是一个笑话?):

一个拥有大量数据的糟糕算法可以比一个拥有大量数据的智能算法做得更好

这是我非常简短的尝试:深度学习可能会提供最先进的结果,但人们并不总是理解为什么,我们科学家的部分工作仍然是解释为什么事情会起作用,一段数据的内容是什么, 等等。

使用的深度学习也需要(巨大的)标记良好的数据库。任何时候您对单个或单个图像(即没有庞大的数据库)进行手工制作,尤其是在不太可能产生“基于用户的免费标记图像”的地方(在“有趣的猫玩游戏和面孔”的补充集中) ,您可以暂时坚持传统的图像处理,并从中获利。最近的一条推文总结说:

(大量)标记数据(没有丢失的变量)要求是许多域的交易破坏者(并且不必要)

如果他们被杀了(我怀疑在短期内),他们还没有死。因此,您在信号处理、图像分析、计算机视觉方面获得的任何技能都将对您未来有所帮助。例如,在博客文章中讨论了这一点: 我们是否忘记了计算机视觉中的几何?亚历克斯·肯德尔:

深度学习彻底改变了计算机视觉。如今,性能最佳的解决方案不是基于端到端深度学习模型的问题并不多。特别是,卷积神经网络很受欢迎,因为它们往往开箱即用。然而,这些模型主要是大黑盒。我们对他们有很多不了解的地方。

一个具体的例子如下:来自同一位置的几张非常暗(例如监控)的图像,需要评估其中一个是否包含应该检测到的特定变化,这可能是传统图像处理的问题,比深度学习(截至今天)。

另一方面,与深度学习在大规模上取得成功一样,它可能会导致对一小部分数据的错误分类,这对于某些应用程序而言“平均而言”可能是无害的。两张与人眼略有不同的图像可以通过深度学习进行不同的分类。或者可以将随机图像设置为特定类。例如,深度神经网络很容易被愚弄:无法识别图像的高置信度预测(Nguyen A, Yosinski J, Clune J. Proc. Computer Vision and Pattern Recognition 2015),或者深度学习有深度缺陷吗?,关于对抗性否定:

在研究人员应用某种难以察觉的扰动后,网络可能会对图像进行错误分类。通过调整像素值以最大化预测误差来找到扰动。

在充分尊重“深度学习”的情况下,考虑“大规模生产响应已注册、已知、大规模有效或预期的行为”与“单一工艺”。在单一指数范围内,没有一个更好(还)。两者可能不得不共存一段时间。

然而,深度学习遍及许多新领域,如下面的参考资料所述。深度学习可能会揭示许多非线性、复杂的特征,这是传统处理以前从未见过的。

幸运的是,一些人正试图找到深度学习背后的数学原理,其中一个例子是由Stéphane Mallat和合著者提出的散射网络或变换,参见ENS 网站的散射谐波分析和非线性算子、Lipschitz 函数、平移/旋转不变性,更适合普通信号处理人员。例如,参见理解深度卷积网络

首先,在图像处理或计算机视觉方面进行研究生工作并使用深度学习并没有错。深度学习并没有扼杀图像处理和计算机视觉,它只是这些领域当前的热门研究课题。

其次,深度学习主要用于对象类别识别。但这只是计算机视觉的众多领域之一。还有其他领域,比如对象检测、跟踪、3D 重建等,其中许多仍然依赖于“手工制作”的特征。

没有深度学习不会扼杀图像处理。你需要庞大的数据集和大量的计算资源来进行深度学习。有很多应用程序希望能够以更少的计算负载和更小的内存占用进行图像处理,并且无需访问庞大的数据库。一些例子是手机、平板电脑、移动相机、汽车、四轴飞行器。深度学习现在非常流行,因为分类存在一些非常令人印象深刻的结果。

分类是图像处理处理的众多问题中的一个,因此即使深度学习确实可以解决所有分类问题,也有很多其他类型的图像处理需要去做。降噪、图像配准、运动计算、变形/混合、锐化、光学校正和转换、计算几何、3D 估计、3D+时间运动模型、立体视觉、数据压缩和编码、分割、去模糊、运动稳定、计算机图形学、各种渲染。

今天我们和我的一个朋友进行了讨论。这是慕尼黑的一个雨天,而欧洲的大部分地区却有一种阳光明媚的气氛。人们在社交媒体上分享照片,他们穿着漂亮的夏装,在海中游荡。她对这种情况感到恼火,转向我问:“你能不能写一个软件来阻止社交媒体上的照片,这些照片涉及夏天这么可爱的照片,当这里天气这么糟糕时?”。我说,为什么不呢。您需要做的就是收集大量夏季图像和负样本,通过网络将其提供给它,该网络在“块”或“无块”级别进行二进制分类。训练和调整网络。而已。

然后,我问自己:我真的知道如何编写一个简单的算法来判断天气好坏,而不让机器为我思考吗?几乎……也许……对于好奇的读者,如果您想尝试的话,这里有一些您可能想要设计的功能:

二级天气分类,策乌路§迪林,贾家亚,邓志强,CVPR 2014

显然,现在我什至不会关心这个 CVPR 出版物,而是深入研究。因此,尽管我喜欢深度学习在许多场景中的强大性能,但我也谨慎使用它。即使它不会扼杀我的图像处理知识,它也会降低我所需的领域专业知识。从理智上讲,这不是很优雅。

一旦个人决定让他/她自己走上正轨并从两个世界中受益,(s)他就会安全。


以下是有关该主题的快速更新:Su 和 Crandall [CVPR'21]要求计算机视觉研究人员和从业者撰写有关发生在他们身上的情感突出事件的故事。简而言之,这是他们的结论:

“对 50 多份回复的分析发现,计算机视觉社区存在巨大的情感(情感)压力。虽然许多人描述了兴奋和成功,但我们发现对这个领域的现状非常频繁地感到孤立、愤世嫉俗、冷漠和愤怒。尤其是在那些对计算机视觉研究的规范标准没有无限热情并且不将自己视为“人群”的一部分的人中确实如此。我们的研究结果表明,这些感受与研究和专业实践的种类密切相关“现在预计在计算机视觉中。我们认为,作为一个具有重要地位的社区,我们需要努力建立一种包容的文化,使其透明并解决其成员真正的情感痛苦。”

所以也许深度学习并没有扼杀图像处理/计算机视觉,但我们应该问:CV 研究人员呢?