数据挖掘、统计、机器学习和人工智能有什么区别?
可以准确地说它们是 4 个领域,试图解决非常相似的问题,但采用不同的方法吗?它们究竟有什么共同点,又有何不同?如果它们之间存在某种层次结构,那会是什么?
之前有人问过类似的问题,但我仍然不明白:
数据挖掘、统计、机器学习和人工智能有什么区别?
可以准确地说它们是 4 个领域,试图解决非常相似的问题,但采用不同的方法吗?它们究竟有什么共同点,又有何不同?如果它们之间存在某种层次结构,那会是什么?
之前有人问过类似的问题,但我仍然不明白:
这些之间有相当多的重叠,但可以做出一些区分。不可避免地,我将不得不过度简化某些事情或对其他事情漠不关心,但我会尽我所能对这些领域有所了解。
首先,人工智能与其他人工智能截然不同。人工智能是研究如何创建智能代理。在实践中,它是如何对计算机进行编程,使其像智能代理(例如,一个人)那样表现和执行任务。这根本不必涉及学习或归纳,它可以只是“构建更好的捕鼠器”的一种方式。例如,人工智能应用程序包括监控和控制正在进行的过程的程序(例如,如果 A 看起来太低,则增加 A 方面)。请注意,人工智能可以包括机器所做的任何事情,只要它不“愚蠢地”做它。
然而,在实践中,大多数需要智能的任务都需要从经验中获得新知识的能力。因此,人工智能中的一个大领域是机器学习。根据某种性能度量,如果计算机程序在某项任务中的表现随着经验而提高,则可以说它从经验中学习了某项任务。机器学习涉及对可以自动提取信息的算法的研究(即,无需在线人工指导)。当然,其中一些程序包含直接源自经典统计或受其启发的想法,但它们没有成为。与 AI 类似,机器学习非常广泛,几乎可以涵盖所有内容,只要其中包含一些归纳组件即可。机器学习算法的一个例子可能是卡尔曼滤波器。
数据挖掘是一个从机器学习(以及一些统计数据)中获得很多灵感和技术的领域,但被用于不同的目的。数据挖掘是由一个人在特定情况下对特定数据集进行的,并有一个目标。通常,此人希望利用机器学习中开发的各种模式识别技术的力量。很多时候,数据集是海量的,复杂的,和/或可能有特殊问题(例如变量多于观察值)。通常,目标要么是在事先真正知之甚少的领域中发现/产生一些初步见解,要么是能够准确预测未来的观察结果。此外,数据挖掘过程可以是“无监督的”(我们不知道答案——发现)或“监督”(我们知道答案——预测)。请注意,目标通常不是对底层数据生成过程有更复杂的理解。常见的数据挖掘技术包括聚类分析、分类和回归树以及神经网络。
我想我不需要多说什么来解释这个网站上的统计数据,但也许我可以说几句。经典统计(这里我指的是常客和贝叶斯)是数学中的一个子主题。我认为它很大程度上是我们对概率的了解和我们对优化的了解的交集。尽管数理统计可以简单地作为柏拉图式的探究对象来研究,但它通常被理解为比其他更稀有的数学领域更实用、更适用。因此(特别是与上述数据挖掘相比),它主要用于更好地理解某些特定的数据生成过程。因此,它通常从正式指定的模型开始,并且由此衍生出的程序可以从嘈杂的实例中准确地提取该模型(即,通过优化某些损失函数进行估计)并能够将其与其他可能性区分开来(即,基于采样分布的已知属性的推断)。典型的统计技术是回归。
许多其他答案已经涵盖了要点,但是您要求是否存在层次结构以及我的看法,尽管它们本身都是学科,但似乎没有人提到过层次结构,因为每个都建立在上一个。
统计只是关于数字,并量化数据。有许多工具可以找到数据的相关属性,但这非常接近纯数学。
数据挖掘是关于使用统计以及其他编程方法来发现隐藏在数据中的模式,以便您可以解释某些现象。数据挖掘建立了对某些数据中实际发生的事情的直觉,并且仍然比编程更倾向于数学,但两者都使用。
机器学习使用数据挖掘技术和其他学习算法来构建一些数据背后发生的事情的模型,以便它可以预测未来的结果。数学是许多算法的基础,但这更倾向于编程。
人工智能使用机器学习和其他方式构建的模型来推理世界并产生智能行为,无论是玩游戏还是驾驶机器人/汽车。人工智能通过预测行动将如何影响世界模型并选择最能实现该目标的行动来实现一些目标。非常基于编程。
简而言之
话虽如此,会有一些人工智能问题只属于人工智能,其他领域也是如此,但今天大多数有趣的问题(例如自动驾驶汽车)可以很容易且正确地称为所有这些问题。希望这可以清除您询问的他们之间的关系。
一般来说,概率模型(以及统计数据)已被证明是在机器中正式构建知识和理解的最有效方法,以至于其他三个模型(AI、ML 和 DM)今天大多是机器学习的子领域。统计数据。不是第一个成为统计学影子的学科……(经济学、心理学、生物信息学等)
我们可以说它们都是相关的,但它们都是不同的东西。尽管它们之间可以有共同点,例如在统计和数据挖掘中,您使用聚类方法。
让我尝试简要定义每个:
统计学是一门非常古老的学科,主要基于经典的数学方法,它可以用于与数据挖掘有时对事物进行分类和分组的相同目的。
数据挖掘包括构建模型,以检测允许我们在给定大量事实或因素的情况下对情况进行分类或预测的模式。
人工智能(查看 Marvin Minsky*)是一门试图模仿大脑如何使用编程方法工作的学科,例如构建一个下棋的程序。
机器学习是构建知识并将其以某种形式存储在计算机中的任务;这种形式可以是数学模型、算法等……任何可以帮助检测模式的东西。