我对这些科目略知一二。我发现它们彼此相似。任何人都可以解释它们之间的区别吗?
机器学习、模式识别和数据挖掘之间有什么区别?
字段中的术语有时定义明确。例如,当在学术出版物中交流机器学习算法时,我们知道收敛意味着什么,因为它在一个较老的领域——数学中有一个正式的定义。然而,机器学习一词在学术出版物中的定义含糊不清。
机器学习的观点
有些人将其视为应用概率和统计的一个分支,涉及具有曲率的模型(不是有用地用一阶多项式近似)以及这些原理在数字计算中的应用。有些人将其视为 James Watt 和 Le Roy MacColl 将反馈控制概念应用于数字控制的工作的延伸。一些人认为这是 Norbert Wiener 和 John Von Neumann 开创性的 AI 工作的自然结果,其中模拟了包括神经化学在内的自然的适应性品质,旨在产生人工生命。
有些人没有深入了解 ML,并认为它是一组类和库,掌握这些类和库将成为一个伟大的职业。尽管这看起来很肤浅,但这个概念可能与其他三个更深层次的概念一样真实。
数据挖掘的观点
术语数据挖掘就是这样。每本书,有时是同一本书中的每一章,似乎都有自己独特的动词挖掘概念。尽管这些定义有一些相似之处,但该术语与 IT 中的术语收敛甚至数据库或音乐中的旋律完全不同。
展开该术语的两个词中包含的隐喻,数据挖掘正在挖掘数据,对于该术语的最普遍使用而言,这也许是一个令人满意的定义。所寻求的信息不是表面上的,就像钻石掉到地上一样,而是在下面并被其他材料覆盖,因此人们必须进行调查、挖掘和处理,才能越过毫无价值的材料并露出宝石。
这个词还有另一个优势。在系统理论中,噪声和信号之间有一个重要的区别。在数据科学中,电气工程师将信号称为统计、表格、图形或其他可视化矿工客户做出管理决策所需的列表。噪声是通过复杂性、音量或突出性来掩盖信号的一切。
模式识别的观点
术语模式识别可能是最模糊的,因为这两个词都不是在科学背景下出现的。
英语(以及其他语言中的同义词)单词模式的早期使用与住房建设、农业或早期纺织品有关。字母或其他符号的形状或构成口语单词的一系列语音元素是模式的概念直到最近才出现。涉及计算机的模式识别早期和当前的大部分工作都与将自然语言表达式转换为某些功能性机器表示有关。
术语模式也是模棱两可的,因为格式塔,即在识别时感知依赖于识别器的方向。沙堡对建筑师来说可能是一种建筑,对化学家来说可能是一种化学成分,对漂流的船上饥饿的乘客来说可能是文明的象征,对小龙虾来说可能是一个障碍,对一个孩子来说可能是一个想象中的家。
对于数学家来说,它可能是具有特定表面拓扑、特征曲率和尺寸的三维形式。对于物理学家来说,沙堡与飞过它的海鸥或它们之间的空气之间可能没有显着差异(除非沙堡是物理学家自己孩子的胜利)。
与格式塔心理学实验所证明的相比,机器的方向甚至更多地限制了模拟人类感知的某些方面。当一种新的模式或结构被指出时,人类可以调整感知。在人工智能进一步发展之前,那种计算机会说“哦,是的。现在我在年轻女人的照片中看到老妇人”的体验只能在最原始的软件中实现。
从字面上看,识别一词意味着认知事件的重复,但这不是我们在普通话中说“我承认”时的意思。我们通常的意思是,对某些感官特征的心理搜索(不一定比感官流中的任何其他模式都多)被识别并与一些内部对象或概念相关联。
卷积网络 (CNN) 最常见的用途不是这些。它通常用于对对象进行分类或作为特征提取感官前端到更大的 AI 设计。
重叠和关联
由于存在所有这些歧义,一些重叠可能很明显,因为一些人工智能活动可能完全涉及这两个或所有三个术语。当然,这三个术语之间的某些关联是显而易见的。
- 在挖掘数据时,我们可能会在海量数据中寻找一种特定类型的结构,并采用特定的搜索策略来缩小搜索范围并使其可用于可用的计算资源。搜索期间的测试使用可以称为模式识别。
- 在机器学习中,我们可以训练人工细胞网络来帮助定位数据中对项目利益相关者有意义的数据或特征。那就是将 ML 用于数据挖掘项目。
可以在这三个术语之间建立大量其他关联。哪些对专家来说最突出将取决于专家的科学、研究和职业定位。
没有足够的重叠成为同义词
然而,很难将这三个中的任何两个声明为同义词。这三个产生于不同类型的研究和不同的方向。只有部分词源保留在术语本身中。
机器学习是模式识别的一种形式。机器学习基本上是训练机器识别模式并将其应用于粒子问题的想法。数据科学是将机器学习应用于实际问题的科学,例如创建更好的搜索引擎结果或对图像进行分类。模式识别几乎是这里的总称。然而,我认为模式识别术语与现代数据科学家训练神经网络和其他机器学习模型的方式有点过时了。
在数据挖掘中,我们可以使用机器学习(ML)(借助无监督学习算法)来识别模式。
模式识别是识别图像或语音等模式的过程。我们可以使用 ML 识别模式。例如,一旦使用 ML 算法训练了神经网络,它就可以用于模式识别。其他方法,即使是与 ML 和数据挖掘无关的方法,也可用于模式识别,例如完全手工制作的模式识别系统。
一般来说,
- 数据挖掘主要与统计学家有关,
- ML 主要与计算机科学家有关,而
- 模式识别主要与工程师有关。