计算机视觉和数字图像处理是人工智能的一部分吗?

人工智能 机器学习 图像识别 计算机视觉
2021-10-19 23:03:53

计算机视觉的某些领域类似于人工智能。例如,模式识别和路径跟踪。基于这些相似性,我们可以说计算机视觉是人工智能的一部分吗?

1个回答

人工智能是一个定义相当模糊的领域。它包括许多学科领域。有时这是因为它们复制了用于解决问题的生物的某些行为或心理能力,有时是因为它们是“经典”人工智能的焦点,并且一直被归类为人工智能的一部分。这些问题包括导航、搜索、解决组合或逻辑难题、复杂系统控制、通信。许多问题可能包括将视觉输入转换为对系统其余部分更有用的东西。

相比之下,计算机视觉的定义似乎更加严格。但是,当您尝试考虑最终输出应该是什么时,它很快就会变得不那么重要。计算机视觉系统需要在多大程度上“理解”视觉输入,以便其他系统组件能够理解并正确使用它们?这里有几个例子来说明我的观点:

图片说明

例如,自动字幕工作有效地包括自然语言模型。系统的输入是图像。该系统的计算机视觉部分不输出图像内部某物的类别或直接测量值。相反,它会输出整个图像描述的矢量编码——语言模型可以将其解码为英文句子。

视觉模型和语言模型是一起训练的,因此这种编码可以非常松散地认为是一个内部“思想图”,它表示图像的内容,并允许视觉和语言模型共享表示。

使用视觉系统进行决策的代理

另一个有趣的例子是最近关于 Deep Q Networks 的工作,用于在玩一些 Atari 游戏时提供超人的性能这使用了一种已知对图像分类问题有好处的神经网络架构 (CNN),并使用它将游戏的像素输出直接连接到学习最佳行为的系统。这在 AI 中更为明显——创建一个可以解决一系列一般问题的学习代理——但其核心是一个 CV 系统。

在这种情况下,输入是四个连续的图像(尽管存在从单个帧流中学习的变化),输出是一个向量,它对采取一种可能的控制器动作(左、右、上、下,火灾等)。系统的变化直接输出 CNN 首选的动作。


您可以更进一步,要求视觉系统生成某种可解释、可转移、共享的世界模型,以供其他系统与之交互。这种方法的雏形是字幕系统的有效工作方式。完全不清楚这种想象的设计是严格地在 CV 领域还是在 AI 的其他部分。

这些输出是否被认为是计算机视觉的一部分或更普遍地是人工智能的一部分,与其说是一个纯粹的科学分类问题,不如说是一个固执己见或政治的问题(例如,由于资助了人工智能研究团队或 CV 研究团队)。

当前的计算机视觉方法与 AI 中正在进行的工作之间的相似之处,例如深度学习模型的大量使用,表明 CV 与 AI 密切相关。直觉上我会说 CV 是 AI 的一部分,也许是它的一个关键专长,在范围上大致相当于自然语言处理。然而,实际结果只对那些自称“AI 研究员”或“CV 工程师”等的人很重要。

我也认为同样的论点适用于人工感知的其他研究,尤其是语音识别。