数据分析和机器学习有什么区别?

数据挖掘 机器学习 深度学习 数据分析
2021-10-06 04:13:57

在我看来,机器学习(尤其是深度学习)可以处理数千(甚至数百万)不同的输入。在对输入进行 ML 模型训练后,计算机有望“学习”有关这数百万个输入之间的联系的一些信息,并有望对新的看不见的输入做出预测。

机器学习和数据分析有什么区别?

4个回答

以下是我对区别的理解;这是基于我自己在过去几年与各个社区打交道的经验,因为我一直在自学统计学/数据科学/机器学习。

“机器学习”一词来自一个相当连贯的学术/研究社区,以计算机科学为中心,但与其他一些领域(如统计学)有中等强度的联系,而与基因组学等领域的联系较弱。例如,看看卡内基梅隆大学机器学习系教师的研究领域。再举一个例子, 《统计学习要素》的三位作者——这似乎是机器学习的标准教科书之一——都是统计学家。

另一方面,“数据分析”一词在不同部门以完全不同的方式使用。成熟公司(尤其是 10 多年前)的数据分析师可能会使用 Excel 和 Tableau 绘制一段时间内的收入趋势,并进行一些简单的财务建模。生物实验室的数据分析师可能是一对博士后和研究生,他们自学了足够的 R 或 Python 来运行统计测试和生成图表。基于 Web 或应用程序的公司可能会让数据分析师构建受众/消费者行为的预测机器学习模型,以便找到略微增加销售或广告收入的方法。新闻媒体的数据记者可能更专注于使用 D3 构建数据聚合和摘要的可视化和交互,很少或没有深度定量分析(即,

因为“数据分析”在不同领域有不同的目的和目标——而且是由受过不同类型正式培训的人完成的——不同类型的“数据分析师”将使用不同的软件工具和不同的方法。深度学习和其他预测模型适用于某些类型的数据分析(基于 Web 和应用程序的公司;科学研究中的某些数据清理目的),但与其他类型(数据新闻)无关。

有用地定义的数据分析,通过维基百科,强调我的:

数据分析,也称为数据分析或数据分析,是一个检查、清理、转换和建模数据的过程,目的是发现有用的信息、提出结论并支持决策

意思是,重点是获取信息、洞察力或结论,以便人类可以更好地做、理解或决定。

Tom Mitchell 在他的《机器学习》一书中写了一个非常有用的定义引用于维基百科

如果计算机程序在 T 中的任务上的性能(由 P 衡量)随着经验 E 而提高,则可以说计算机程序从经验 E 中学习某类任务 T 和性能度量 P。

在这里,重点是编程代理学习做事——预测房价,转录文本——从经验,即数据。

我发现这是一个有用的区别:我们可以推理目标,而不是方法。如果我们正在分析录制语音的傅立叶系数以了解人脑如何将声音解析为元音,那就是分析;如果我们正在编写一个自动转录文本的程序,那就是机器学习。

(非常多样化的领域,几乎没有共识,您的里程可能会有所不同。)

对我来说,数据分析代表着......

  1. 从我们的数据中获取有洞察力的 KPI 是什么?例如,如果我们是一家电子商务零售商,那么对于我们仍然有库存的页面,这可能是我们必须访问的页面的百分比是多少?或者

  2. 2天内发货的订单百分比是多少?

机器学习,是一个完全不同的游戏。您可以重新陈述 Q1 和 Q2,例如:

  1. 我们能否建立一个预测算法来预测哪些页面会缺货?

  2. 我们可以构建一个优化器来帮助我们更快地发送订单吗?

在更深层次上,您通常使用机器来自动执行一些相当琐碎的任务的数据分析。通过机器学习,您可以让机器自动执行很多学习过程——您通常会在其中以数据分析师的身份传递这些知识。

这有助于澄清吗?

数据分析是理解数据、发现模式并尝试获得推断的过程,由此可以观察到潜在模式。

机器学习是指您训练系统学习这些模式并尝试预测即将出现的模式。

例如,

将 Amazon.com 视为超市,将其中一名员工视为机器,该员工可以访问您的数据。在探索您的数据时,该员工发现您在进入超市的 80% 的时间里都购买了一些巧克力,并且您大部分时间都在周日光顾商店。员工发现有 50 人遵循类似的模式,购买巧克力的可能性或多或少。该员工随后决定将所有巧克力柜台移至超市入口处,以增加概率并吸引更多顾客购买巧克力。

在这里观察顾客购物的模式和行为是数据分析,学习相似的模式并改变办公桌的位置以增加这些概率是机器学习的过程